시각과 추론을 함께 키우는 PRCO: 인지‑추론 공동 진화
PRCO는 관찰자와 해결자라는 두 역할을 공유 정책 아래에서 협업시키며, 관찰자는 질문에 맞는 시각 증거 캡션을 생성하고 해결자는 그 캡션을 기반으로 최종 답을 예측한다. 각각 역할에 특화된 보상(관찰자는 해결자의 성공률 기반 유틸리티, 해결자는 정답 검증 기반 보상)을 사용해 인지와 추론을 구분된 신호로 학습시켜, 기존 RLVR이 시각 인지 향상에 실패하던 문제를 해결한다.
저자: Ziqi Miao, Haonan Jia, Lijun Li
본 논문은 멀티모달 대형 언어 모델(MLLM)에서 강화학습 기반 검증 보상(RLVR)이 주로 최종 정답에만 초점을 맞추어 인지 단계, 즉 이미지에서 증거를 추출하는 과정의 개선을 소홀히 하는 한계를 지적한다. 기존 RLVR 방법은 관찰자와 해결자를 동일한 정책으로 학습시키면서 동일한 보상을 공유했기 때문에, 인지 오류가 남아 있어도 추론 성능이 향상되는 ‘credit assignment’ 문제가 발생한다. 이를 해결하기 위해 저자들은 PRCO(Perception‑Reasoning Coevolution)라는 새로운 프레임워크를 제안한다.
PRCO는 하나의 공유 정책 πθ를 두 가지 역할, 즉 Observer와 Solver에 번갈아 적용한다. Observer는 질문‑조건부 증거 캡션(c)을 생성한다. 이 캡션은 이미지에서 질문에 직접 관련된 시각 정보를 텍스트 형태로 압축해 Solver가 활용하도록 설계된다. Solver는 캡션과 필요 시 원본 이미지(I_S)를 입력받아 최종 답(ˆa)을 도출한다. 두 역할은 역할‑특화 프롬프트(r_O, r_S)를 통해 구분되며, 동일 파라미터를 공유한다는 점에서 효율성을 유지한다.
보상 구조는 핵심 차별점이다. Solver는 검증기 V(예측 답, 정답)와 포맷 체크러 F를 결합한 가중합 r_S = λ·V + (1‑λ)·F 로 정의한다. 이는 정답 여부와 형식 준수를 동시에 평가한다. Observer는 ‘유틸리티 보상’으로, 관찰자가 만든 캡션 c가 Solver의 성공률에 미치는 영향을 직접 측정한다. 구체적으로 r_O = (1‑I_leak(q,c))·E_{â∼π}
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기