음성 기반 감정·우울증 인식을 위한 강건 딥 네트워크 EmoAudioNet
본 논문은 음성 신호의 시간‑주파수 표현과 스펙트로그램 이미지를 동시에 활용하는 두 흐름(two‑stream) CNN 구조인 EmoAudioNet을 제안한다. RECOLA와 DAIC‑WOZ 데이터셋에서 arousal·valence 연속 감정 예측과 우울증(Depression) 분류·중증도 추정에 대해 기존 최첨단 방법들을 능가하거나 동등한 성능을 보이며, 특히 Pearson Correlation Coefficient와 RMSE/MAE 지표에서 …
저자: Alice Othmani, Daoud Kadoch, Kamil Bentounes
본 논문은 감정 및 우울증 인식을 위한 새로운 딥러닝 아키텍처인 EmoAudioNet을 제안한다. 서론에서는 감정 컴퓨팅과 정신건강 모니터링의 중요성을 강조하며, 특히 음성 신호가 인간의 정서 상태를 반영한다는 점을 근거로 한다. 기존 연구는 크게 두 갈래로 나뉜다. 하나는 손수 만든 음향 특징(Low‑Level Descriptors, LLD)을 추출한 뒤 전통적인 분류기(GMM, SVM, Random Forest 등)로 학습하는 방식이며, 다른 하나는 이러한 특징을 그대로 혹은 MFCC와 같은 제한된 특징만을 사용해 CNN·RNN·BLSTM 등 다양한 딥러닝 모델에 입력하는 방식이다. 그러나 대부분의 연구는 시간‑주파수 정보를 동시에 활용하지 못하거나, 두 흐름을 별도로 처리해 정보 손실이 발생한다는 한계를 지적한다.
이에 저자들은 두 가지 주요 동기를 제시한다. 첫째, 스펙트로그램은 음성의 시간‑주파수 텍스처를 시각적으로 표현해 CNN이 패턴을 효과적으로 학습할 수 있다. 둘째, MFCC는 인간 청각에 근접한 스펙트럼 특징을 제공하므로, 두 정보를 결합하면 감정의 미묘한 변화를 더 정확히 포착할 수 있다.
EmoAudioNet의 구조는 크게 세 부분으로 구성된다. (1) MFCC 기반 1D CNN 스트림: 음성을 2.5 초 프레임으로 나누어 177 차원의 MFCC 벡터를 만든 뒤, 두 개의 1D Conv‑ReLU 블록을 통과시켜 2816 차원의 고수준 특징을 추출한다. (2) 스펙트로그램 기반 2D CNN 스트림: 음성을 256개의 구간으로 나누어 FFT를 수행하고, Hamming 윈도우를 적용해 1900×1200 색상 이미지(스펙트로그램)를 만든 뒤 224×224로 리사이즈한다. 이 이미지는 두 개의 2D Conv‑ReLU‑Dropout‑MaxPool‑Conv‑ReLU 블록을 거쳐 1152 차원의 특징을 얻는다. (3) 두 스트림의 특징을 연결(concatenate)하고, 완전 연결층을 통해 최종 클래스(감정 차원 또는 우울증 라벨)를 예측한다.
학습 과정에서는 데이터 증강을 통해 데이터 부족 문제를 완화한다. 구체적으로는 (i) 백색·환경 잡음을 α = 0.01~0.03 비율로 혼합하고, (ii) 피치를 0.5, 2, 5 세미톤 낮추는 피치 시프팅을 적용한다. 이러한 변형은 모델이 다양한 음성 환경에 강건하도록 만든다. 손실 함수는 감정 연속 예측에서는 Concordance Correlation Coefficient 기반의 회귀 손실을, 우울증 분류에서는 교차 엔트로피를 사용한다. 최적화는 Adam을 이용해 100 epoch 정도 학습한다.
실험은 두 공개 데이터셋을 사용한다. RECOLA는 프랑스어 대화에서 5분 길이의 음성 23개를 제공하며, 연속적인 arousal·valence 라벨이 있다. DAIC‑WOZ는 임상 인터뷰 기반 영어 음성으로 우울증 이진 라벨과 PHQ‑9 점수(중증도) 라벨을 제공한다. 평가 지표는 감정 예측에서는 Pearson Correlation Coefficient(PCC), 우울증 분류에서는 F1‑score, 회귀에서는 RMSE·MAE를 사용한다.
결과는 다음과 같다. 감정 예측에서 EmoAudioNet은 arousal PCC ≈ 0.70, valence PCC ≈ 0.78을 기록했으며, 이는 기존 CNN‑LSTM(≈0.44/0.69)이나 단일 스펙트로그램 CNN(≈0.44/0.69)보다 현저히 높다. 우울증 이진 분류에서는 F1‑score ≈ 0.86을 달성했으며, 이는 이전 최고 성능(≈0.84)과 비슷하거나 약간 앞선다. 회귀(중증도)에서는 RMSE ≈ 4.5, MAE ≈ 3.6을 기록해 기존 방법보다 10~20% 개선되었다. 두 스트림을 결합한 모델이 각각 단일 스트림보다 일관되게 우수한 성능을 보였으며, 이는 시간‑주파수 텍스처와 MFCC 특징이 상호 보완적임을 실증한다.
논문의 한계로는 (1) 스펙트로그램 이미지 생성에 높은 메모리와 연산 비용이 소요돼 실시간 적용에 제약이 있다. (2) 데이터셋이 제한적이며, 언어·문화적 다양성을 충분히 검증하지 못했다. (3) 모델 파라미터가 비교적 작지만, 두 스트림을 동시에 학습해야 하므로 학습 시간과 GPU 메모리 요구가 증가한다.
향후 연구 방향은 (i) 경량화된 시각‑음향 융합 모듈 설계, (ii) 텍스트·영상 등 멀티‑모달 데이터와의 통합, (iii) 다국어·다문화 데이터셋 구축 및 전이 학습, (iv) 실시간 스트리밍 환경에서의 최적화 등을 제시한다. 최종적으로, EmoAudioNet은 임상 및 일상 생활에서의 감정·우울증 모니터링을 위한 실용적인 딥러닝 기반 솔루션으로서 큰 잠재력을 가진다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기