감정 인식을 위한 혼합 증거 연역 추론

본 논문은 개방형 어휘 멀티모달 감정 인식(Open‑Vocabulary Multimodal Emotion Recognition, OV‑MER)의 근본적인 어려움을 짚으며, 특히 서로 다른 모달리티에서 나타나는 모호하고 상충되는 단서가 내재된 상황을 어떻게 효과적으로 해석할 것인가에 초점을 맞춘다. 기존 멀티모달 대형 언어 모델(MLLM)은 풍부한 사전 지식을 바탕으로 높은 어휘 커버리지를 제공하지만, 학습 과정에서 데이터의 통계적 편향에 의해 ‘조기 커밋먼트’가 발생하고, 이는 다중 모달 단서를 충분히 활용하지 못하는 결과를 낳는다. 저자들은 이러한 현상을 인간의 ‘시스템 1’ 사고와 유사하다고 보고, 보다 심층적인 ‘시스템 2’ 수준의 검증 과정을 도입해야 한다고 주장한다. 이를 해결하기 위해 제안된 **HyDRA(Hybrid‑evidential Deductive Reasoning Architecture)**는 감정 인식을 **Propose‑Verify‑Decide**라는 세 단계 프로토콜로 구조화한다. 1. **Propose 단계**에서는 모델이 입력된 시각(V), 음성(A), 텍스트(T) 데이터를 바탕으로 K개의 서로 다른 상황 가설 H₁…H_K를 생성한다. 각 가설은 잠재 상황 설명과 해당 상황에서 기대되는 감정 단서(eₖ,₁, eₖ,₂…)를 포함한다. 2. **Verify 단계**에서는 블록 안에서 각 가설을 관찰 X와 교차 검증한다. 여기서는 가설이 제시한 단서와 실제 멀티모달 입력 사이의 일치도를 평가하고, 불일치가 발견되면 해당 가설을 억제한다. 이 과정은 ‘증거‑기반 검증’이라고 부르며, 모델이 단순히 확률이 높은 라벨을 선택하는 것이 아니라, 실제 관찰과 논리적으로 일치하는 근거를 찾아야 함을 의미한다. 3. **Decide 단계**에서는 Φ(Hₖ, X)·Ψ(Hₖ, Y)라는 복합 점수를 계산해 가장 높은 점수를 획득한 가설을 최종 감정 라벨 집합 ˆY로 출력한다. Φ는 가설과 관찰 사이의 증거 적합성을, Ψ는 가설과 목표 라벨 사이의 논리적 일관성을 측정한다. 학습 방법은 두 단계로 나뉜다. 첫 번째 **Cold‑Start Multimodal Supervision**에서는 구조화된 추론 트레이스를 이용해 사전 학습(Supervised Fine‑Tuning, SFT)을 진행한다. 이는 모델이 → → 라는 형식을 미리 익히게 함으로써, 이후 강화학습 단계에서 프로토콜을 자연스럽게 따를 수 있게 만든다. 두 번째 단계인 **GRPO 기반 정책 최적화**에서는 Group‑Relative Policy Optimization(GRPO)을 적용한다. 동일 프롬프트에 대해 G개의 서로 다른 경로를 샘플링하고, 각 경로의 보상 R을 계산한 뒤 그룹 평균과 표준편차로 정규화된 상대 이득 A(g)를 구한다. 이 상대 이득은 증거‑기반 경로에 높은 보상을, 편향된 단일 경로에 낮은 보상을 부여하는 ‘차등 필터’ 역할을 한다. 정책 업데이트는 토큰‑단위 중요도 가중치와 KL 발산 정규화를 결합한 손실 함수(L_GRPO)로 수행된다. 핵심은 **계층형 보상 함수**이다. 총 보상 R은 다음 여섯 요소의 가중합으로 정의된다. - **r_acc**: 감정 라벨의 정확도(F1 점수)와 길이 패널티를 포함한다. - **r_fmt**: , , 와 같은 형식적 구조를 준수했는지 평가한다. - **r_think**: 사고 과정에서 논리적 일관성을 유지했는지 점검한다. - **r_cite**: 가설이 제시한 증거를 명시적으로 인용했는지 확인한다. - **r_evid**: 내부 증거 일관성을 검증한다(가설 내 주장 ↔ 단서 매핑). - **r_sem**: 외부 어노테이션(인간이 제공한 멀티모달 단서)과 모델이 생성한 단서 간 의미적 유사성을 측정한다. 특히 r_evid와 r_sem은 HyDRA가 ‘증거‑중심’ 추론을 실현하는 핵심 메커니즘이며, 실험 결과 이 두 보상이 제거될 경우 성능이 급격히 저하되는 것이 확인되었다. **실험**에서는 여러 공개 OV‑MER 데이터셋(OV‑FG, MER‑2023/2024 등)과 기존 멀티모달 베이스라인(LLAVA‑7B, Video‑ChatGPT‑7B, LLaMA‑VID‑7B 등)을 비교했다. HyDRA는 파라미터 수가 5 B 수준으로 비교적 작음에도 불구하고, 평균 F1 점수와 개방형 어휘 정확도에서 모든 베이스라인을 앞섰다. 특히 시각·음성·텍스트가 상충하는 ‘tearful smile’ 같은 사례에서 HyDRA는 다중 가설을 유지하고, 최종 결정 전에 증거를 명시적으로 비교함으로써 보다 해석 가능한 결과를 제공했다. **Ablation Study**에서는 가설 수 K를 1, 3, 5, 7로 변동시켰을 때 K=5 정도에서 최적 성능을 보였으며, K가 지나치게 많아지면 연산 비용과 노이즈가 증가해 성능이 감소한다는 점을 확인했다. 보상 요소별 Ablation에서는 r_fmt와 r_think을 제외해도 큰 손실이 없었지만, r_evid와 r_sem을 제거하면 정확도가 8~10%p 급락했다. 이는 증거‑정합성 보상이 전체 시스템의 핵심임을 재확인한다. **한계와 향후 연구**에서는 현재 HyDRA가 텍스트 기반 증거 정합성에 크게 의존하고 있어, 실제 픽셀‑레벨 혹은 음향‑레벨의 저수준 증거와의 정밀 매핑이 부족함을 지적한다. 향후에는 멀티모달 피드백 루프를 도입해 저수준 특징과 고수준 의미를 동시에 검증하는 구조를 탐색할 계획이다. 또한, 제안된 프로토콜과 보상 설계는 감정 인식 외에도 멀티모달 사실 검증, 비디오 이해 등 다양한 복합 추론 작업에 적용 가능할 것으로 기대한다.

감정 인식을 위한 혼합 증거 연역 추론

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기