선택지를 사전으로 전환: 과학 그림 MCQA를 위한 대비 디코딩

본 연구는 과학 논문에 삽입된 다양한 형태의 그림(플롯, 다중 패널, 현미경 사진 등)을 활용한 객관식 질문응답(MCQA)에서 발생하는 새로운 편향, 즉 “choice‑induced prior bias”를 제시한다. 과학 분야의 객관식 문제는 선택지 자체가 전문 용어와 도메인 지식을 담고 있어, 이미지 없이도 높은 언어적 타당성을 보이는 경우가 빈번하다. 이러한 텍스트 사전은 멀티모달 비전‑언어 모델이 그림을 실제로 분석하기보다 텍스트만으로 정답을 추론하도록 유도한다. 논문은 이 현상을 “text‑prior‑dominant decoding”이라고 명명하고, 이를 정량적으로 검증하기 위해 동일 모델에서 (1) 이미지와 질문·선택지를 모두 포함한 멀티모달 확률 p_mm(c|x,q,C)와 (2) 이미지 없이 텍스트만으로 얻은 p_txt(c|q,C)를 계산한다. Jensen‑Shannon divergence와 코사인 유사도를 이용해 올바른 예측은 두 분포가 크게 차이나고, 오류는 두 분포가 유사함을 확인한다. 이러한 관찰에 기반해 제안된 SCICON(Scientific Contrastive Decoding)은 훈련‑무료 디코딩 기법이다. 각 후보 답안 c에 대해 멀티모달 로짓 l_mm(c)=logitθ(c|x,q,C)와 텍스트‑전용 로짓 l_txt(c)=logitθ(c|q,C)를 구한 뒤, l_sc(c)=l_mm(c)−α·l_txt(c) (α>0) 로 재스코어링한다. α는 사전 억제 강도를 조절하는 하이퍼파라미터이며, 실험에서는 0.5~1.0 사이가 최적으로 나타났다. 최종 예측은 l_sc(c) 값이 가장 큰 후보를 선택한다. 이 방식은 텍스트만으로 충분히 설명되는 후보를 자동으로 낮은 점수로 밀어내고, 시각적 근거가 추가될 때만 강해지는 후보를 부각시킨다. 실험은 세 가지 과학 그림 MCQA 벤치마크(MAC, SciFIBench, MMSci)와 세 가지 비전‑언어 백본(Qwen‑3.5‑4B, Qwen‑3.5‑9B, Phi‑3.5‑vision‑instruct)을 사용해 수행되었다. 평가 지표는 정확도(ACC)와 macro‑F1이며, SCICON은 모든 조합에서 Greedy baseline보다 평균 3~5%p, 기존 대비 디코딩 방법(VCD, ICD)보다 2~4%p 향상된 성능을 보였다. 특히 Qwen‑9B 모델에서는 MAC에서 81.35%→82.26%(+0.91), SciFIBench에서 55.10%→58.00%(+2.90) 등 눈에 띄는 개선을 기록했다. MMSci 데이터셋에 대한 카테고리별 분석에서도 생물·물리·보건 과학 분야에서 일관된 상승을 확인했으며, “Scientific community and society”와 같이 텍스트 사전이 강하게 작용하는 영역에서는 ICD가 약간 앞섰지만 전체 평균에서는 SCICON이 우수했다. 논문의 한계로는 (1) 텍스트‑전용 점수 자체가 모델에 따라 크게 변동할 수 있어 α 튜닝이 필요하고, (2) 이미지가 전혀 정보를 제공하지 못하는 경우(예: 순수 텍스트 설명)에는 점수 차감이 오히려 성능을 저하시킬 수 있다. 또한 현재는 고정된 객관식 형식에만 적용 가능하므로, 자유형 답변이나 다중 선택지를 포함한 복합 QA에는 확장이 필요하다. 향후 연구 방향은 (i) 텍스트 사전 추정치를 동적으로 학습하거나, 선택지 자체를 재구성해 사전 편향을 최소화하는 프롬프트 설계, (ii) 이미지‑텍스트 상호작용을 더 정교히 모델링해 l_mm과 l_txt의 관계를 비선형적으로 조정하는 방법, (iii) 다른 도메인(법률·의료 기록 등)에서 유사한 선택지‑사전 현상이 존재하는지 탐색하고, SCICON을 일반화하는 것이다. 이러한 접근은 멀티모달 모델이 시각적 근거에 더 의존하도록 유도함으로써, 과학 문헌 이해, 증거 기반 질의응답, 연구 지원 시스템 등에서 신뢰성 높은 AI 어시스턴트를 구현하는 데 기여할 수 있다.

선택지를 사전으로 전환: 과학 그림 MCQA를 위한 대비 디코딩

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기