색상 기반 감정 표현을 활용한 음성 감정 인식

본 연구는 감정을 색상의 색조·채도·명도(H‑S‑V)로 연속적이고 직관적인 점수화하여 기존의 범주형·차원형 레이블의 한계를 보완한다. 일본어 연기 음성 데이터(JVNV)에 10명의 크라우드 작업자를 통해 색상 속성을 라벨링하고, 이를 기반으로 회귀 모델(SVR, DNN)과 다중작업 학습을 수행하였다. 색상 속성은 음성 신호와 일정 수준의 상관관계를 보이며, 다중작업 학습이 회귀와 분류 모두의 성능을 향상시킴을 확인하였다.

저자: Ryotaro Nagase, Ryoichi Takashima, Yoichi Yamashita

색상 기반 감정 표현을 활용한 음성 감정 인식
본 논문은 기존의 범주형(예: 행복, 분노) 및 차원형(Valence‑Arousal) 감정 레이블이 감정의 다양성과 해석 가능성을 충분히 포착하지 못한다는 문제점을 인식하고, 색상(Hue, Saturation, Value)이라는 직관적이고 연속적인 속성을 감정 표현에 도입한다. 색상은 인간이 감정을 시각적으로 연상하기 쉬운 매개체이며, 수치화된 세 변수로 감정의 복합성을 표현할 수 있다. 연구는 먼저 일본어 연기 음성 데이터베이스인 JVNV(총 1,615개 발화, 6가지 감정 라벨)를 선택하고, 크라우드 플랫폼 Lancers를 통해 10명의 작업자가 각 발화에 대해 색상 속성을 라벨링하도록 설계했다. 라벨링 인터페이스는 색상 휠에서 Hue를 20개의 18° 구간 중 선택하게 하고, Saturation과 Value를 5×5 그리드와 0% 옵션을 통해 선택하게 하는 방식이다. 작업자는 사전 예시 없이 자신의 감각에 따라 색을 선택했으며, 최종 라벨은 각 속성의 평균값(또는 원형 평균)으로 정의했다. 라벨 분석 결과, Hue는 감정별로 뚜렷한 평균값을 보였다. 행복과 놀람은 약 45°(노란색·주황색) 쪽에, 분노는 340°(붉은‑보라색) 쪽에, 공포·슬픔·혐오는 270°(파란색·보라색) 쪽에 집중되었다. Saturation은 고각성 감정(행복, 놀람, 분노)에서 60% 이상으로 높은 경향을 보였으며, 저각성 감정(공포, 슬픔, 혐오)은 20%~100% 사이에 고르게 분포했다. Value는 긍정적 감정이 80%~100%의 높은 밝기를, 부정적 감정이 낮은 밝기를 갖는 경향을 나타냈다. 이러한 분포는 기존 차원형 감정 모델과 유사한 패턴을 보여 색상 속성이 감정의 정서적 차원을 반영한다는 가설을 뒷받침한다. 다음으로 색상 속성을 예측하기 위한 회귀 모델을 구축했다. 첫 번째 실험에서는 전통적인 SVR과 최신 DNN을 비교했다. SVR은 두 종류의 입력 특성을 사용했는데, 하나는 음성 신호에서 추출한 ComParE2016 특성, 다른 하나는 사전학습된 일본어 HuBERT 모델의 중간 레이어(6, 9, 12번째) 임베딩이다. Hue는 각도형 변수이므로 sin·cos 형태로 회귀하고 arctan2로 복원했다. DNN은 HuBERT의 CNN 레이어를 고정하고 Transformer 블록만 fine‑tuning 하여 회귀 헤드를 추가했으며, 손실 함수는 CCC 손실을 사용해 평균과 분산을 동시에 최적화했다. 실험 결과, SVR은 Hue에서 평균 41.7°의 Angular Error(AE)를 기록했으며, HuBERT 6번째 레이어를 사용할 때 35.1°로 개선되었다. Saturation과 Value는 SVR이 각각 PCC 0.564/0.699와 CCC 0.325/0.480을 보였고, DNN은 PCC 0.588/0.809와 CCC 0.533/0.794를 달성해 전반적으로 DNN이 더 높은 상관성을 보였다. 다만 Hue에서는 SVR이 더 낮은 AE를 기록해 각도형 특성에 대한 SVR의 강점을 확인할 수 있었다. 개별 회귀 모델이 공동 회귀 모델보다 성능이 약간 우수했으며, 이는 각 색상 속성이 서로 독립적인 정보를 담고 있어 동시에 학습하기가 다소 어려움을 시사한다. 두 번째 실험에서는 색상 회귀와 6가지 감정 분류를 동시에 학습하는 다중작업 모델을 설계했다. 손실 가중치 α를 0.6~1.0 사이에서 변동시켰으며, α=0.9일 때 회귀와 분류 모두 최적의 성능을 보였다. 이때 Hue AE는 29.7°, Saturation CCC는 0.580, Value CCC는 0.560으로 회귀 전용 모델 대비 각각 1.6°, 0.027, 0.016만큼 향상되었다. 감정 분류 정확도는 90.8%로 단일 작업(88.3%)보다 2.5%p 상승했으며, 특히 ‘슬픔→공포’와 ‘분노→놀람’ 사이의 혼동이 크게 감소했다. 이 두 감정 쌍은 평균 Hue 차이가 크게 나타나는 점과 연관되어, 색상 회귀가 감정 구분에 보조적인 정보를 제공함을 보여준다. 결론적으로, 색상 기반 감정 표현은 감정의 시각적 직관성을 제공하면서, 음성 신호와의 정량적 연관성을 모델링할 수 있음을 입증했다. 색상 라벨링은 주관적이며 문화·언어에 따라 차이가 있을 수 있다는 한계가 존재하지만, 다중작업 학습을 통해 회귀와 분류가 상호 보완적으로 작용한다는 점은 향후 멀티모달 감정 인식 시스템에 유용한 설계 원칙이 될 것이다. 향후 연구에서는 다양한 언어·문화권 데이터, 실시간 응용을 위한 경량 모델, 그리고 색상 외의 시각적 메타데이터(예: 이미지, 동영상)와의 융합을 탐색할 필요가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기