음성 감정 인식을 위한 주의 기반 완전합성곱신경망

본 논문은 가변 길이의 스펙트로그램을 그대로 입력으로 받아들일 수 있는 완전합성곱신경망(FCN)에 2차원 주의(attention) 메커니즘을 결합한 감정 인식 모델을 제안한다. 이미지넷으로 사전 학습된 AlexNet 구조를 FCN 형태로 변형하고, 전이 학습을 활용해 제한된 IEMOCAP 데이터셋에서도 높은 성능을 달성한다. 가중 정확도 70.4 %, 비가중 정확도 63.9 %를 기록하며 기존 CNN+LSTM 기반 최고 성능을 능가한다. 또한 …

저자: Yuanyuan Zhang, Jun Du, Zirui Wang

음성 감정 인식을 위한 주의 기반 완전합성곱신경망
본 논문은 인간 감정이 추상적이고, 긴 발화 중 특정 순간에만 뚜렷하게 나타나며, 라벨링된 음성 데이터가 부족하다는 세 가지 근본적인 어려움을 동시에 해결하고자 한다. 기존의 전통적인 감정 인식 파이프라인은 프레임‑레벨 음성 특징(피치, 에너지 등)을 추출하고, 통계적 집계(평균, 최대값, 회귀계수 등)를 통해 발화 전체를 하나의 벡터로 요약한 뒤 SVM이나 DNN 같은 분류기에 입력한다. 이러한 방식은 시간적 연속성을 손상시키고, 감정이 순간적으로 변하는 특성을 반영하기 어렵다. 최근에는 CNN과 LSTM을 결합해 스펙트로그램을 직접 입력으로 사용했지만, CNN이 고정 크기의 입력을 요구해 발화를 여러 조각으로 나누거나 제로패딩을 해야 하는 제약이 있다. 또한, 각 조각에 전체 발화와 동일한 레이블을 부여하는 비현실적인 가정이 존재한다. 이를 극복하기 위해 저자는 완전합성곱신경망(FCN)을 채택한다. FCN는 전통적인 CNN 구조에서 완전 연결층을 제거하고, 입력 이미지(여기서는 스펙트로그램)의 가변적인 공간 차원을 그대로 유지한다. 구체적으로, ImageNet에서 사전 학습된 AlexNet의 Conv1~Conv5와 MaxPool 레이어를 그대로 사용하고, 마지막의 완전 연결층을 삭제해 인코더 역할을 수행한다. 이렇게 하면 입력 스펙트로그램의 길이가 달라도 네트워크가 자연스럽게 처리할 수 있다. 하지만 모든 시간‑주파수 영역이 감정 인식에 동등하게 기여하지는 않는다. 따라서 2차원 주의(attention) 메커니즘을 도입한다. FCN의 출력은 F × T × C 형태의 텐서이며, 이를 L = F·T개의 지역 벡터 a_i 로 펼친다. 각 a_i는 작은 MLP(가중치 W, 편향 b, tanh 활성화)를 통과해 새로운 표현을 얻고, 학습 가능한 벡터 u와의 내적을 통해 중요도 e_i 를 산출한다. 스케일 파라미터 λ(0 ≤ λ ≤ 1)를 곱한 뒤 softmax를 적용해 정규화된 주의 가중치 α_i 를 구한다. 최종 발화 표현 c는 α_i 로 가중합된 벡터이며, 이는 분류기에 입력된다. λ를 0.3으로 설정함으로써 완전 균등 가중치와 기존 softmax 사이의 중간 형태를 취해, 감정에 중요한 구간을 강조하면서도 과도한 편향을 방지한다. 데이터 부족 문제를 해결하기 위해 전이 학습을 활용한다. ImageNet으로 사전 학습된 AlexNet 파라미터를 그대로 초기화하고, 스펙트로그램 입력에 맞게 fine‑tuning한다. 실험 결과, 무작위 초기화된 동일 구조보다 전이 학습된 모델이 약 1~2 % 높은 정확도를 보였다. 이는 이미지넷에서 학습된 저수준 필터가 음성 스펙트로그램에서도 에지·텍스처와 유사한 패턴을 감지하는 데 유용함을 시사한다. 실험은 IEMOCAP 코퍼스의 즉흥 대화 부분만을 사용해 4가지 감정(행복, 슬픔, 분노, 중립)으로 분류한다. 스펙트로그램은 40 ms Hamming 윈도우, 10 ms 쉬프트, 800‑점 DFT 후 저주파 200 차원만을 사용한다. 5‑fold 교차 검증에서 가중 정확도(WA) 70.4 %와 비가중 정확도(UA) 63.9 %를 달성했으며, 이는 기존 최고 성능인 CNN+LSTM 모델(최고 WA 68.8 %, UA 59.4 %)보다 각각 1.6 %·1.9 % 절대 향상된 결과다. 또한, 2D 주의 가중치를 시각화한 히트맵을 통해 모델이 비음성 구간과 고주파 영역에 낮은 가중치를 할당하고, 감정이 뚜렷하게 표현되는 저주파·중간 주파수 구간에 높은 가중치를 부여함을 확인했다. 이는 인간 청각이 주로 저주파에서 감정 정보를 추출한다는 기존 연구와 일치한다. 결론적으로, 이 논문은 (1) 가변 길이 스펙트로그램을 그대로 처리할 수 있는 FCN 기반 구조, (2) 시간‑주파수 전역에서 감정에 중요한 영역을 자동으로 강조하는 2D 주의 메커니즘, (3) 이미지넷 사전 학습을 통한 전이 학습으로 데이터 부족을 보완하는 세 가지 핵심 기법을 결합해, 기존 CNN+LSTM 기반 방법을 능가하는 성능을 입증했다. 향후 연구에서는 다중 언어·다중 감정 라벨, 실시간 추론 최적화, 그리고 다른 사전 학습 도메인(예: 음성 인식)과의 비교를 통해 일반화 가능성을 탐색할 필요가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기