시각적 환각 완화를 위한 층별 특성 스티어링 프레임워크

본 연구는 대형 비전‑언어 모델(LVLM)에서 시각적 환각이 발생하는 근본 원인을 층별로 파악하고, 이를 기반으로 선택적으로 특성을 조정하는 새로운 프레임워크 LTS‑FS(Locate‑Then‑Sparsify for Feature Steering)를 제안한다. 기존의 특성 스티어링 방법은 모든 층에 동일한 강도로 “anti‑hallucination” 방향을 적용했으며, 이는 모델 내부의 비환각 관련 지식을 불필요하게 변형시켜 일반 작업 성능을 저하시켰다. 이를 개선하기 위해 저자들은 먼저 환각 현상을 두 가지 수준, 즉 토큰‑레벨과 문장‑레벨로 구분한 이중‑Granularity 데이터셋을 구축하였다. 이 데이터셋은 CHAIR, POPE, Antidote 등 기존 벤치마크를 활용해, 단일 문장에서는 특정 토큰을, 다문장에서는 전체 문장을 환각으로 라벨링한다. 이렇게 만든 데이터는 이후 층별 귀인 분석에 사용된다. 귀인 단계에서는 각 Transformer 층의 Multi‑Head Attention 출력 중 하나의 헤드를 마스크하고, 마스크 전후의 로그 확률 비율을 통해 해당 층이 환각 토큰에 미치는 영향을 정량화한다. 토큰‑레벨 귀인 점수 s_l^tok 은 로그 비율의 합으로 정의되며, 문장‑레벨 귀인 점수 s_l^sent 은 토큰‑레벨 점수에 가중치를 부여해 가중합한다. 가중치는 (1) 요약 토큰 여부, (2) 문장 내 위치, (3) 실제 사실 오류 여부라는 세 가지 지표를 λ 파라미터로 조정해 만든다. 이 과정은 기존 연구에서 제시된 인과적 개입 기법을 확장한 것으로, 각 층이 환각에 기여하는 정도를 보다 정확히 측정한다. 귀인 점수를 얻은 뒤, 저자들은 이를 스티어링 강도에 매핑하는 희소 선택 전략을 설계한다. 점수가 높은 층에는 강한 스티어링 벡터를, 점수가 낮은 층에는 약하거나 무시하는 수준으로 적용한다. 이렇게 층별로 차등된 스티어링을 적용함으로써, 환각을 유발하는 핵심 층만을 목표로 조정하고, 나머지 층은 원래의 특성 분포를 유지한다. 이는 기존 방법이 모든 층을 균일하게 변형시켜 발생한 성능 저하를 근본적으로 해결한다. 실험에서는 Qwen‑VL‑2.5‑7B, LLaVA‑1.5, MiniGPT‑4 등 다양한 LVLM에 LTS‑FS를 플러그‑인 형태로 적용하였다. CHAIR, POPE‑popular, MMMU, LLaVA‑Bench 등 여러 벤치마크에서 LTS‑FS는 기존 SOTA 특성 스티어링(Nullu) 대비 환각 감소율을 2~4%p 향상시켰으며, 일반화 성능(예: MMMU에서의 정확도, LLaVA‑Bench에서의 detailness 점수)도 소폭 상승했다. 특히, TSNE 시각화 결과는 LTS‑FS 적용 후 특징 분포가 원본과 거의 겹치는 반면, 기존 방법은 분포를 크게 왜곡함을 보여준다. 또한, Qwen‑VL‑2.5‑7B에 대해 POPE‑popular에서 2%p, LLaVA‑Bench에서 detailness 4.72→4.92 점수 향상을 기록했다. 본 논문의 주요 기여는 다음과 같다. (1) 토큰‑레벨·문장‑레벨 이중‑Granularity 환각 데이터셋을 구축해 환각 현상을 정밀하게 라벨링하였다. (2) 인과적 개입 기반 층별 귀인 방법을 제안해 각 층의 환각 기여도를 정량화하였다. (3) 귀인 점수를 스티어링 강도로 변환하는 층별 희소 스티어링 전략을 도입해, 환각 억제와 일반 성능 보존을 동시에 달성하였다. (4) 제안된 프레임워크는 특정 스티어링 기법에 종속되지 않으며, 다양한 LVLM 및 스티어링 방법에 플러그‑인 형태로 적용 가능하다. 향후 연구에서는 이 귀인‑스티어링 파이프라인을 편향 완화, 안전성 강화 등 다른 오류 유형에도 확장할 수 있을 것으로 기대된다.

시각적 환각 완화를 위한 층별 특성 스티어링 프레임워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기