시각언어 모델의 시간 민감 지식 평가 벤치마크 V‑DyKnow

V‑DyKnow는 최신 위키데이터를 활용해 시각·텍스트 입력에 대한 시간‑민감 사실 질문을 제공하고, 현재와 과거의 사실을 구분해 VLM의 정확도·일관성·업데이트 가능성을 종합적으로 평가한다. 실험 결과, 대부분의 VLM이 시각 입력에서 오래된 정보를 반환하며, 최신 모델일수록 텍스트 입력에서는 성능이 높지만 시각 입력에서는 여전히 갭이 존재한다. 기존 지식 편집·멀티모달 RAG 기법은 제한적인 상황에서만 효과를 보이며, 멀티모달 정렬 과정이 …

저자: Seyed Mahed Mousavi, Christian Moiola, Massimo Rizzoli

시각언어 모델의 시간 민감 지식 평가 벤치마크 V‑DyKnow
본 논문은 시각‑언어 모델(VLM)이 정적인 데이터 스냅샷에 기반해 학습됨에 따라, 시간이 흐름에 따라 변하는 사실을 정확히 반영하지 못한다는 문제를 제기한다. 이를 정량적으로 평가하기 위해 저자들은 기존 DyKnow 벤치마크를 확장해 시각적 엔티티와 시간‑민감 속성을 결합한 V‑DyKnow를 설계하였다. V‑DyKnow는 위키데이터에서 최신 속성값과 과거 유효 기간을 추출해 (주체, 속성, 값) 삼중항 형태로 구성하고, 각 삼중항에 유효 기간을 라벨링한다. 엔티티는 국가의 국기·문장, 운동선수의 초상화, 기업 로고 등 이미지 형태로 제공되며, 동일 엔티티를 텍스트 형태로도 제시해 모달리티 간 성능 차이를 직접 비교한다. 평가 프로토콜은 세 가지 주요 요소로 구성된다. 첫째, 모델 응답을 ‘Correct(현재 유효)’, ‘Outdated(과거에 유효)’, ‘Irrelevant(전혀 해당되지 않음)’로 구분해 정밀한 오류 유형을 파악한다. 둘째, 동일 질문을 의미는 동일하지만 어휘가 약간씩 다른 세 가지 프롬프트 변형을 사용해, 프롬프트에 대한 민감도를 Upper‑Bound 전략(세 응답 중 가장 좋은 라벨을 최종 결과로 채택)으로 보정한다. 셋째, 이미지 기반 질문에 대해 별도의 ‘시각 엔티티 인식’ 서브태스크를 도입해, 모델이 이미지를 올바르게 식별했는지 여부를 평가한다. 실험에서는 9개의 최신 VLM(LLaVA‑1.5, LLaVA‑OneVision, PaliGemma‑2, Molmo, Qwen2‑VL, Qwen2.5‑VL, InternVL‑3.5, GPT‑4‑V, GPT‑5‑V)과 해당 언어 모델(LLM) 버전을 비교하였다. 주요 결과는 다음과 같다. (1) 대부분의 모델이 시각 입력에서 ‘Outdated’ 응답 비율이 ‘Correct’보다 높았다. 예를 들어 LLaVA‑1.5는 시각 입력 시 31%가 최신, 56%가 오래된, 33%가 무관한 답변을 내놓았다. (2) 텍스트 입력에서는 전반적으로 정확도가 높았으며, 최신 모델(GPT‑4‑V, GPT‑5‑V)은 90% 이상 정확도를 기록했다. (3) 시각 엔티티 인식 정확도와 시각‑텍스트 성능 격차는 강한 상관관계를 보였다. Qwen2‑VL 계열은 85% 이상 인식 정확도를 보이며, 시각‑텍스트 격차가 비교적 작았다. 반면 LLaVA‑1.5와 Molmo는 인식 정확도가 60% 이하로, 시각 입력 시 ‘Irrelevant’ 응답이 크게 늘어났다. (4) 프롬프트 일관성(Agreement) 측면에서도 텍스트 입력이 더 안정적이었다. GPT‑4‑V와 GPT‑5‑V는 두 모달리티 모두 90% 이상 일관성을 보였지만, LLaVA‑1.5와 Molmo는 시각 입력에서 30‑40% 수준에 머물렀다. 다음으로, 기존 지식 편집 기법(GRACE, WISE, IKE)과 멀티모달 Retrieval‑Augmented Generation(RAG)을 적용해 모델의 오래된 지식을 최신으로 교정하려는 시도를 수행했다. LLaVA‑1.5와 Qwen2‑VL을 대상으로, 편집 방법은 효율성(efficiency)과 패러프레이즈 성공률(paraphrase success)을 조화한 조화 평균을 사용해 평가했으며, 전반적으로 2‑5% 수준의 미미한 개선만 관찰되었다. 특히 ‘oracle’ 설정(정답 문서를 직접 제공)에서도 최신 답변 비율이 크게 상승하지 않았으며, 편집이 기존 지식과 충돌해 성능 저하를 일으키는 경우도 있었다. 추가적인 메커니즘 분석에서는 모델 내부의 attention 흐름과 레이어별 표현을 시각화해, 오래된 사실이 주로 초기 레이어에서 고정된 임베딩 형태로 저장되고, 상위 레이어에서 이미지‑텍스트 매핑을 수행할 때 해당 임베딩이 그대로 전달되는 구조적 한계를 발견했다. 훈련 데이터 스냅샷을 역추적한 결과, 2021‑2022년 이전 위키백과·뉴스 코퍼스에 포함된 오래된 사실이 주요 원인으로 작용했음이 확인되었다. 결론적으로, V‑DyKnow는 VLM이 시간‑민감 지식을 얼마나 정확히 보유하고 있는지를 정량화하는 최초의 동적 멀티모달 벤치마크이며, 실험을 통해 (1) 시각 입력 시 오래된 정보가 빈번히 반환됨, (2) 최신 모델이라 할지라도 멀티모달 정렬 과정에서 텍스트 기반 지식이 손상될 수 있음, (3) 기존 지식 편집·RAG 기법은 제한적인 상황에서만 효과적임을 입증했다. 저자들은 향후 연구 방향으로 (① 지속적인 시계열 데이터 파이프라인 구축, ② 이미지 인식과 사실 검색을 분리·연동하는 모듈식 아키텍처, ③ 멀티모달 정렬 단계에서 언어 모델의 원본 지식을 보존하는 정교한 파인튜닝 전략) 등을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기