교차 시나리오 멀티모달 감정 인식을 위한 이중‑브랜치 그래프 도메인 적응
본 논문은 텍스트·음성·시각 3가지 모달리티를 이용한 대화 감정 인식에서, 도메인 간 분포 차이와 라벨 노이즈를 동시에 완화하기 위해 이중‑브랜치 그래프 인코더와 도메인 적대적 학습을 결합한 DGDA 프레임워크를 제안한다. 감정 상호작용 그래프를 구축하고, 하이퍼그래프 신경망(HGNN)과 경로 신경망(PathNN)으로 정형·비정형 관계를 포괄적으로 학습한다. 도메인 구분자를 통한 불변 표현 학습과 정규화 손실을 도입해 노이즈 라벨의 영향을 억제…
저자: Yuntao Shou, Jun Zhou, Tao Meng
본 연구는 멀티모달 감정 인식 대화(MERC) 분야에서 실제 적용 시 마주치는 두 가지 핵심 문제, 즉 도메인 간 분포 차이와 라벨 노이즈를 동시에 해결하고자 한다. 기존 MERC 모델들은 주로 단일 데이터셋 내에서 높은 정확도를 목표로 설계돼, 서로 다른 시나리오(예: 화자, 주제, 녹음 환경)의 변동에 취약했다. 이를 극복하기 위해 저자들은 Dual‑branch Graph Domain Adaptation(DGDA)이라는 새로운 프레임워크를 제안한다.
1. **감정 상호작용 그래프 구축**
대화는 연속적인 발화들의 집합으로 구성되며, 각 발화는 텍스트, 음성, 시각 3가지 모달리티를 포함한다. 저자들은 각 발화를 그래프의 노드로, 발화 간 정서적 연관성(예: 화자 교체, 감정 전이, 대화 흐름)을 하이퍼엣지로 연결해 감정 상호작용 그래프(EIG)를 만든다. 이 그래프는 고차 관계를 명시적으로 표현함으로써, 전통적인 단순 인접 행렬 기반 GNN이 놓치기 쉬운 복합 의존성을 포착한다.
2. **이중‑브랜치 인코더**
- **Hypergraph Neural Network (HGNN) 브랜치**: 하이퍼그래프 구조를 그대로 활용해 하이퍼엣지에 연결된 다수 노드의 특징을 동시에 업데이트한다. 이를 통해 멀티모달 간의 복합 상호작용과 고차 정서 패턴을 직접 학습한다.
- **Path Neural Network (PathNN) 브랜치**: 그래프 내 모든 가능한 경로를 순차적으로 탐색해, 장거리 의존성과 전역 흐름 정보를 암묵적으로 학습한다. PathNN은 경로별 LSTM/GRU 구조를 사용해 순차적 정보를 집계한다.
두 브랜치의 출력은 공유 파라미터를 통해 결합되며, 이는 지역적(하이퍼엣지)과 전역적(경로) 정보를 동시에 반영한다.
3. **도메인 적대적 학습**
소스 도메인(라벨이 있는 데이터)과 타깃 도메인(라벨이 없는 데이터) 사이의 분포 차이를 최소화하기 위해 Gradient Reversal Layer와 도메인 디스크리미네이터를 도입한다. 인코더는 도메인 구분자를 속이는 방향으로 학습되며, 결과적으로 도메인 불변 특징을 추출한다. 또한, 소스 도메인에 인위적인 노이즈(δ)를 추가해 적대적 교란을 수행함으로써, 모델이 노이즈에 강인하도록 만든다.
4. **라벨 노이즈 억제 정규화 손실**
기존의 Cross‑Entropy 손실에 정규화 손실(L_reg)을 가중합한다. L_reg은 모델 출력의 엔트로피를 최소화하면서, 의심스러운 라벨에 대한 신뢰도를 낮추는 역할을 한다. 이를 통해 라벨이 잘못된 샘플에 대한 과적합을 방지하고, 실제 정서 신호에 더 큰 가중치를 부여한다.
5. **이론적 분석**
저자들은 Rademacher 복잡도와 도메인 적응 이론을 기반으로 일반화 경계를 도출한다. 제안된 DGDA는 기존 GNN‑기반 도메인 적응보다 더 타이트한 상한을 제공하며, 이는 하이퍼그래프와 경로 정보를 동시에 활용함으로써 모델 복잡도가 효과적으로 제어된다는 것을 의미한다.
6. **실험 및 결과**
- **데이터셋**: IEMOCAP(대화형 감정 데이터)와 MELD(멀티모달 대화 데이터)를 사용해 소스→타깃, 타깃→소스 전이 실험을 수행하였다.
- **베이스라인**: Transformer‑기반 멀티모달 Fusion, GCN‑기반 그래프 모델, 최신 도메인 적응 방법(DANN, CDAN 등)을 포함한 10여 개 모델과 비교하였다.
- **성능**: Weighted F1, Accuracy, Macro‑F1 모두 기존 최고 성능 모델 대비 평균 4~7%p 향상을 기록하였다. 특히, 라벨 노이즈 비율을 30%까지 증가시킨 상황에서도 성능 저하가 최소화되었으며, 이는 정규화 손실의 효과를 입증한다.
- **소스/타깃 도메인 시각화**: t‑SNE 시각화를 통해 DGDA가 학습한 특징이 소스와 타깃 간에 명확히 겹치면서도 감정 클래스별로는 뚜렷한 군집을 형성함을 확인하였다.
7. **결론 및 향후 연구**
DGDA는 멀티모달 감정 인식에서 도메인 차이와 라벨 노이즈라는 두 가지 실용적 문제를 동시에 해결한 최초의 프레임워크이다. 향후 연구에서는 실시간 스트리밍 환경에서의 경량화, 더 다양한 도메인(예: 다국어, 문화적 차이) 적용, 그리고 라벨 노이즈 자동 검출 메커니즘을 통합하는 방향을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기