스펙트럼 서브밴드 흔들기로 감정 인식 모델을 더 강력하게

본 논문은 이미지 분야에서 성공한 Shake‑Shake 정규화 기법을 음성 감정 인식에 적용하고, 전체 스펙트럼 대신 주파수 서브밴드를 독립적으로 흔들어 정규화하는 여러 변형 모델을 제안한다. 네 개의 공개 감정 데이터셋을 4‑fold 교차검증으로 실험한 결과, 서브밴드별 독립 흔들기(특히 Upper + Lower, “Both” 모델)가 전체를 흔드는 방식보다 정확도가 높고, 훈련‑검증 정확도 차이가 작아 과적합을 효과적으로 억제함을 확인하였다…

저자: Che-Wei Huang, Shrikanth Narayanan

**1. 연구 배경 및 목적** 딥 컨볼루션 신경망(DCNN)은 이미지, 기계 번역, 음성 감정 인식 등 다양한 분야에서 뛰어난 성능을 보이고 있다. 그러나 감정 인식에서는 학습 데이터가 상대적으로 적고, 모델 파라미터가 많아 과적합 위험이 크다. 기존에는 가중치 감쇠, 드롭아웃 등 전통적인 정규화 기법이 사용됐지만, 배치 정규화가 도입된 이후 드롭아웃의 효과가 감소했다. 최근 이미지 분야에서 성공한 다중‑branch 기반 Shake‑Shake 정규화는 각 브랜치의 순전파와 역전파에 무작위 스케일링을 적용해 모델 다양성을 강제한다. 본 논문은 이 기법을 음성 감정 인식에 적용하고, 특히 “스펙트럼 서브밴드”별로 독립적인 흔들기를 수행함으로써 정규화 효과를 극대화하고자 한다. **2. Shake‑Shake 정규화 원리** 3‑branch ResNet 구조에 Shake‑Shake 레이어를 삽입한다. 순전파 단계에서는 각 브랜치 출력 Bₙ(X)에 αₙ(∈

스펙트럼 서브밴드 흔들기로 감정 인식 모델을 더 강력하게

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기