주제 모델링 기반 다중모달 우울증 탐지

본 논문은 7~33분 길이의 인터뷰 영상을 대상으로, 인터뷰 내용의 주제별로 음성·영상·텍스트 특징을 추출하고, 주제별 슬롯에 배치한 뒤 두 단계 특징 선택을 수행해 우울증 수준을 예측하는 모델을 제안한다. 주제 모델링을 이용해 단기 정서 변화와 맥락을 보존함으로써 기존 평균 기반 방법보다 높은 성능을 달성하였다.

저자: Yuan Gong, Christian Poellabauer

주제 모델링 기반 다중모달 우울증 탐지
본 논문은 2017년 Audio/Visual Emotion Challenge(AVEC‑2017)에서 제공된 DAIC‑WOZ 데이터베이스를 활용하여, 장시간(7~33분) 인터뷰 영상에서 우울증 수준을 예측하는 새로운 접근법을 제시한다. 기존 연구들은 주로 음성·영상·텍스트 특징을 전체 인터뷰에 대해 평균하거나 통계적으로 요약하는 방식을 사용했으며, 이는 인터뷰 중 발생하는 단기적인 정서 변화와 맥락 정보를 손실시키는 한계가 있었다. 저자들은 이러한 문제를 ‘주제(topic)’라는 의미 단위로 인터뷰를 세분화하고, 각 주제별로 다중모달 특징을 별도 슬롯에 배치하는 ‘주제‑기반 다중모달 특징 벡터 구축’ 방식을 제안한다. 1. **주제 사전 구축** 인터뷰 진행자인 가상 인터뷰어 Ellie는 사전에 정의된 질문을 통해 대화를 진행한다. 저자들은 Ellie의 모든 발화문을 수집하고, 중복을 제거한 뒤 수동·자동 클러스터링을 통해 83개의 주제 사전을 만든다. 각 주제는 1~3개의 고정 문장으로 구성되며, 실제 인터뷰에서는 평균 14개의 주제만이 등장한다는 통계적 특성을 보인다. 2. **다중모달 특징 추출** - **음성**: COVAREP 툴킷에서 74차원, 추가로 5개의 포먼트 특징을 10 ms 간격으로 추출하고, 각 주제 구간에 대해 평균, 최대, 최소를 계산해 237차원의 음성 특징을 만든다. - **영상**: OpenFace에서 20개의 Action Unit(AU) 값을 추출하고 동일한 통계 함수를 적용해 60차원의 영상 특징을 만든다. - **텍스트(의미)**: LIWC 사전을 이용해 주제별 발화문을 93차원 의미 특징으로 변환한다. 또한, 수면, PTSD 등 핵심 주제에 대해서는 사전 정의된 카테고리(예: ‘easy’, ‘fair’, ‘hard’)를 부여해 추가적인 의미 변수를 만든다. 3. **주제‑슬롯 구조** 각 주제마다 위에서 정의한 음성·영상·텍스트 특징을 하나의 슬롯에 배치한다. 이렇게 하면 동일 주제에 대한 여러 발화가 동일 슬롯에 집계되어 차원 폭발을 방지하면서도, ‘가족’ 주제에서의 낮은 음성 피치와 같은 맥락‑특정 정서 신호를 보존할 수 있다. 4. **두 단계 특징 선택** - **1단계**: 주제별 평균 중요도(χ², ANOVA 등)를 기반으로 상위 특징을 선별한다. - **2단계**: Lasso·Elastic‑Net 정규화 회귀를 적용해 최종 특징 집합을 도출한다. 이 과정에서 과적합을 방지하고, 제한된 학습 샘플(훈련 107개, 우울증 라벨 30개)에도 강인한 모델을 만든다. 5. **실험 및 결과** 제안 방법은 AVEC‑2017 우울증 서브챌린지의 베이스라인 및 기존 컨텍스트‑불감 모델에 비해 RMSE, MAE, CCC 등 모든 평가 지표에서 유의미하게 높은 성능을 보였다. 특히, 주제‑특정 정서 특징(예: ‘가족’ 주제에서의 음성 피치 저하)과 의미 특징(LIWC의 ‘부정 감정’)의 결합이 예측 정확도 향상에 크게 기여했다. 주제 커버율이 낮아 실제 사용되지 않는 슬롯은 자동으로 제외되어 모델 복잡도가 크게 감소하였다. 6. **기여 및 한계** - **기여**: (1) 인터뷰를 주제 단위로 분할해 시간적·맥락적 정보를 보존하는 새로운 특징 구축 방식 제안, (2) 다중모달(음성·영상·텍스트) 특징을 주제‑슬롯에 통합, (3) 제한된 샘플에서도 효과적인 두 단계 특징 선택 기법 적용. - **한계**: 주제 사전 구축 과정이 수동 작업에 의존하고, 다른 인터뷰 프로토콜에 바로 적용하기 어려울 수 있다. 또한, 주제 전환이 명확히 정의되지 않은 실제 임상 인터뷰에서는 적용이 제한될 가능성이 있다. 결론적으로, 본 연구는 긴 인터뷰 데이터에서 단기 정서 변화와 맥락을 동시에 활용할 수 있는 주제 모델링 기반 다중모달 분석 프레임워크를 제시함으로써, 우울증 자동 검출 분야에 새로운 방향성을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기