차이 피드백: VLM 강화학습을 위한 멀티모달 과정 수준 감독 생성
본 논문은 비전‑언어 모델(VLM)의 강화학습에서 발생하는 희소한 최종 보상 문제를 해결하기 위해 “차이 피드백(Difference Feedback)”이라는 자동 과정‑레벨 감독 메커니즘을 제안한다. 오류가 있는 생성 경로를 작은 편집으로 복구하는 별도 모델을 학습하고, 원본과 복구된 출력의 차이를 토큰‑레벨 마스크로 변환해 GRPO·PPO 등 기존 정책 최적화에 삽입한다. 실험 결과 MMMStar와 MathVista 등 멀티모달 추론 벤치마크…
저자: Feiding, Yongkang Zhang, Yuhao Liao
본 논문은 비전‑언어 모델(VLM)의 강화학습 정렬 과정에서 발생하는 “희소 보상” 문제를 해결하고자 차이 피드백(Difference Feedback, 이하 DF)이라는 새로운 메커니즘을 제안한다. 기존의 GRPO·PPO·GSPO 등은 최종 결과에 대한 전역 보상만을 사용해 정책을 업데이트하기 때문에, 다단계 추론 시 어느 단계가 시각적 근거와 연결되는지를 파악하기 어렵다. 이로 인해 학습이 불안정해지고, 시각적 증거를 무시한 언어 편향이나 시각적 환각이 발생한다.
DF는 두 단계로 구성된다. 첫 번째는 “수정 모델(repair model)”을 학습하는 단계이다. 저자들은 1,000개의 인간 주석(오류 출력, 정답, 정답에 대한 참조)으로 구성된 작은 데이터셋을 사용해 SFT( supervised fine‑tuning)으로 초기화한다. 이후 RL 단계에서 “정답도 + 편집 비용”이라는 복합 보상을 적용한다. 여기서 편집 비용은 원본 출력과 복구된 출력 사이의 Levenshtein 거리이며, 이를 통해 모델이 전체 문장을 다시 쓰는 것이 아니라 최소한의 토큰 수정만을 하도록 유도한다. 또한, Qwen2.5‑VL‑72B‑Instruct 기반 감사자를 도입해 보상 해킹(이미지 없이도 정답을 맞추는 경우 등)을 탐지하고, 이미지 제거 패널티(C1)를 적용해 시각적 의존성을 강제한다.
두 번째 단계는 “차이 마스크 생성”이다. 오류가 있는 원본 출력 y와 복구된 출력 ỹ를 Levenshtein 편집 경로나 LCS(Longest Common Subsequence)를 이용해 토큰‑레벨 마스크 m과 ỹ에 대한 마스크 m′을 만든다. m은 원본에서 수정이 필요한 토큰을 1로 표시하고, 나머지는 0이다. 이 마스크는 이후 정책 업데이트 시 토큰‑레벨 advantage에 곱해져, 오류가 있는 부분에만 큰 그라디언트를 전달하고, 올바른 부분은 기존 advantage를 유지한다. 필요에 따라 거리 기반 감쇠를 적용한 연속형 가중치 w도 사용할 수 있다.
DF를 기존 GRPO에 통합한 “DF‑GRPO”는 다음과 같이 동작한다. 입력 x에 대해 기존 정책 πθ_old으로 G′개의 샘플을 생성하고, 최종 보상 R(x, y) 기준으로 “정답” 그룹(G_cor)과 “오답” 그룹(G_err)으로 나눈다. 오답 샘플에 대해서는 복구 모델을 사용해 최소 편집 복구 ỹ를 만든 뒤, G_err와 ỹ를 합쳐 새로운 그룹 G을 만든다. 이후 토큰‑레벨 likelihood ratio w_z,t와 advantage b_A(z)를 계산하고, 차이 마스크 g_z,t를 곱해 가중된 advantage b_A^DF(z,t)를 얻는다. 최종 목표는 기존 GRPO objective에 이 가중된 advantage를 삽입해 클리핑된 surrogate loss를 최소화하는 것이다.
PPO에도 동일한 아이디어를 적용해 “DF‑PPO”를 구현한다. 보상이 낮은 트래젝터리만 복구하고 마스크를 적용해 토큰‑레벨 ratio에 가중치를 부여한다. 보상이 충분히 높은 경우는 기존 PPO 클리핑을 그대로 사용해 유용한 학습 신호를 잃지 않는다.
실험에서는 멀티모달 추론 벤치마크인 MMMStar와 MathVista를 사용했다. 동일한 컴퓨팅 예산(학습 시간·GPU 수) 하에 DF‑GRPO와 DF‑PPO는 각각 평균 3%p, 2.5%p 정도의 정확도 향상을 보였으며, 특히 시각적 세부 묘사·카운팅·공간 관계와 같은 장기 추론 문제에서 큰 이득을 얻었다. Ablation 연구에서는 (1) 마스크 없이 복구만 적용했을 때보다 (2) 마스크와 감사자를 포함했을 때가 더 안정적이며, (3) 복구 모델을 정책 파라미터와 동일하게 초기화했을 때 성능이 가장 좋다는 점을 확인했다. 또한, 복구 데이터가 1k 수준으로 작아도 충분히 효과적인 복구 모델을 학습할 수 있음을 보여, 대규모 인간 주석 비용을 크게 절감할 수 있다.
결론적으로, 차이 피드백은 “프로세스 레벨 감독”을 자동으로 생성함으로써 VLM 강화학습의 credit assignment 문제를 해결한다. 기존 정책 구조나 목표 함수를 크게 변경하지 않고도 적용 가능하며, 복잡한 멀티모달 추론에서 시각‑언어 연계 학습을 강화한다. 향후 연구에서는 더 큰 멀티모달 데이터셋, 다양한 시각적 도메인(비디오, 3D), 그리고 인간 피드백과의 혼합을 통해 DF의 일반화 능력을 확장할 여지가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기