세밀한 부정 질문이 드러낸 멀티모달 모델 환각·FINER 벤치마크와 개선 전략
본 논문은 이미지에 존재하지 않는 세밀한 요소를 묻는 부정 질문에 대해 멀티모달 대형 언어 모델(MLLM)이 흔히 환각을 일으킨다는 점을 발견하고, 이를 정량화하기 위한 FINER-CompreCap·FINER-DOCCI 두 벤치마크를 제시한다. 객체·속성·관계·‘what’ 네 가지 설정으로 구성된 질문들을 통해 모델의 미세한 오류 감지 능력을 평가한다. 또한 Direct Preference Optimization(DPO) 기반의 FINER‑Tu…
저자: Rui Xiao, Sanghwan Kim, Yongqin Xian
멀티모달 대형 언어 모델(MLLM)은 이미지 질문 응답 분야에서 눈에 띄는 진전을 이루었지만, 실제 사용자들이 제시하는 세밀한 질문에 대해 여전히 환각(hallucination) 문제를 안고 있다. 기존 연구는 주로 ‘이미지에 고양이가 있나요?’와 같은 거친 존재 여부 질문에 초점을 맞추었으며, 이러한 질문은 모델이 단순히 ‘예/아니오’만 판단하면 되기 때문에 세밀한 이미지 이해 능력을 충분히 검증하지 못한다. 본 논문은 이러한 격차를 메우기 위해 ‘Fine-grained Negative Queries( FINER)’라는 개념을 도입하고, 두 개의 대규모 벤치마크인 FINER‑CompreCap과 FINER‑DOCCI를 구축한다.
FINER 벤치마크는 이미지의 장면 그래프(SG)를 기반으로 질문을 생성한다. SG는 객체(OBJ), 속성(ATTR), 관계(REL)를 포함하며, 각각에 대해 부정 형태(NEG_OBJ, NEG_ATTR, NEG_REL)를 4가지씩 생성한다. 질문 템플릿은 ‘Can you see cat and pillar?’와 같이 하나의 요소만을 부정 형태로 교체하고, 나머지는 실제 이미지와 일치하도록 만든다. 이렇게 만든 질문은 4가지 설정으로 구분된다. (1) Multi‑obj: 여러 객체 존재 여부를 묻는 질문, (2) Multi‑attr: 하나의 객체에 대한 다중 속성 검증, (3) Multi‑rel: 객체 간 복합 관계 확인, (4) What: 특정 객체에 대해 잘못된 속성을 포함한 ‘what‑question’이다. 각 설정은 이진 응답뿐 아니라 ‘No, but I can see …’와 같은 다중 선택형(MCQ) 형태로 확장돼, 모델이 정확히 어떤 요소가 잘못됐는지를 명시하도록 요구한다.
FINER‑CompreCap은 COCO 이미지와 인간이 주석한 SG를 활용해 6,300개의 Multi‑obj, 3,338개의 Multi‑attr, 4,280개의 Multi‑rel, 3,166개의 What MCQ를 제공한다. FINER‑DOCCI는 장문 캡션을 자동으로 SG로 변환하는 파이프라인을 구축한다. Gemini‑2.0‑Flash를 이용해 초기 SG를 추출하고, Qwen2.5VL‑72B로 필터링한 뒤, 인간 검증을 거쳐 오류를 최소화한다. 이를 통해 10,000개의 Multi‑obj, 28,630개의 Multi‑attr, 11,542개의 Multi‑rel, 20,944개의 What MCQ를 생성한다.
벤치마크를 활용한 초기 실험에서는 InternVL3.5‑14B와 같은 최신 MLLM이 질문의 세분화 수준이 높아질수록 정확도가 급격히 떨어지는 현상이 관찰되었다. 7단계의 부정 질문(NEG_OBJ → NEG_ATTR → NEG_REL 순)에서 정확도는 레벨 1에서 약 80%였지만, 레벨 5‑7에서는 15‑20% 수준으로 감소했다. 이는 모델이 세밀한 부정 요소를 인식하지 못하고, 존재하는 다른 요소가 있으면 무조건 ‘Yes’라고 답하는 경향을 보임을 의미한다.
이 문제를 해결하기 위해 저자들은 Direct Preference Optimization(DPO) 기반의 FINER‑Tuning을 제안한다. FINER‑Tuning은 위 두 벤치마크에서 추출한 부정 질문‑정답 쌍과 기존 환각 데이터셋을 혼합해 학습 데이터로 만든다. DPO는 모델이 ‘No’와 동시에 올바른 대안을 제시하도록 선호 신호를 제공한다. 네 개의 최첨단 MLLM(InternVL3.5‑14B, LLaVA‑1.5, Qwen‑VL, MiniGPT‑4)을 FINER‑Tuning으로 미세조정한 결과, InternVL3.5‑14B는 전체 FINER 벤치마크에서 최대 24.2%p(정확도) 상승을 기록했다. 특히 Multi‑attr와 Multi‑rel 설정에서 가장 큰 개선이 나타났으며, ‘What’ 질문에서도 오류 식별 능력이 크게 향상되었다.
흥미로운 점은 FINER‑Tuning이 기존 환각 평가(POPE, D‑ASH, AMBER 등)와 일반 멀티모달 벤치마크(VQAv2, COCO‑Cap, OK‑VQA, MME 등)에서도 전반적인 성능 상승을 이끌었다는 것이다. 이는 부정 질문 기반의 미세조정이 모델의 전반적인 신뢰성, 이미지-텍스트 정합성, 그리고 일반화 능력을 동시에 강화한다는 강력한 증거가 된다. 마지막으로, 논문은 코드·벤치마크·파인튜닝된 모델을 모두 공개하여 연구 재현성과 향후 확장 연구를 지원한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기