화자별 음성 데이터 감정 분석 시스템

본 논문은 화자 구분이 가능한 음성 데이터에서 감정을 자동으로 추출하는 시스템을 제안한다. 연구 배경으로는 기존 감정 분석이 주로 텍스트에 초점을 맞추어 왔으며, 음성 기반 감정 분석은 아직 초기 단계에 머물러 있다는 점을 지적한다. 이를 해결하기 위해 저자들은 ‘음성 → 텍스트 전사 → 화자 식별 → 감정 분석’이라는 4단계 파이프라인을 설계하였다. 첫 번째 단계인 전처리에서는 VAD(Voice Activity Detection)를 적용해 음성 구간을 자동으로 검출하고, 검출된 청크를 데이터베이스에 저장한다. 이렇게 분리된 청크는 이후 단계에서 각각 독립적으로 처리된다. 두 번째 단계인 음성 인식에서는 세 가지 엔진을 비교하였다. 오픈소스 Sphinx4는 HMM 기반 전통 모델로, 평균 WRR이 35 %에 불과해 실용성이 낮았다. 반면, Google Speech API와 Bing Speech API는 최신 딥러닝 기반 모델을 사용해 각각 평균 86 %와 89 %의 WRR을 기록했다. 특히 Bing Speech API가 가장 높은 인식률을 보였으며, 이는 대규모 사전·언어 모델과 클라우드 연산 능력 덕분이다. 세 번째 단계인 화자 인식에서는 MFCC(Mel Frequency Cepstral Coefficient)를 특징으로 추출하고, DTW(Dynamic Time Warping) 알고리즘을 통해 청크 간 유사도를 측정한다. 거리 계산에는 Euclidean, Canberra, Correlation을 적용했으며, 특징 수를 1~26개로 변화시켜 정확도를 평가했다. 실험 결과, 13개의 MFCC 특징을 사용했을 때 가장 높은 화자 구분 정확도가 도출되었다. 이는 MFCC가 인간 청각 특성을 모사하면서도 화자 고유의 스펙트럼 정보를 충분히 보존하고, DTW가 시간축 변형을 보정해 주어 발화 속도 차이를 효과적으로 처리하기 때문이다. 네 번째 단계인 감정 분석에서는 텍스트 전사 결과를 입력으로 사용한다. Naive Bayes, Linear SVM, VADER 세 가지 모델을 트위터 데이터셋과 영화 리뷰 데이터셋에 대해 테스트했으며, VADER가 95 % 이상, Linear SVM이 86 %~88 %의 정확도를 기록했다. VADER는 규칙 기반 어휘 사전과 감정 점수 계산 방식을 사용해 짧은 구어체에 강한 특성을 보인다. 실험에 사용된 데이터셋은 21개의 10초 내외 녹음 파일로 구성됐으며, 두 화자가 교대로 대화하는 형태였다. 화자는 총 7명(남성 4명, 여성 3명)이며, 스크립트는 세 가지 시나리오로 나뉘었다. 실험 결과를 요약하면 다음과 같다. (1) 음성 인식 성능: Bing > Google > Sphinx4. (2) 화자 구분 최적 설정: MFCC 13개 + DTW + Canberra/Eucledian 거리. (3) 감정 분류 최적 모델: VADER. 논문의 한계점으로는 현재 시스템이 두 화자 간 교대 발화만을 지원하고, 동시 발화(오버랩) 상황을 처리하지 못한다는 점, 그리고 실험이 인위적으로 만든 스크립트 기반 대화에 한정되어 있다는 점을 들 수 있다. 향후 연구 방향으로는 멀티채널 마이크와 소스 분리 기법을 활용한 오버랩 음성 처리, 다양한 연령·언어·문화 배경을 포함한 대규모 코퍼스 구축, 실시간 스트리밍 파이프라인 구현 및 감정 분석 모델의 멀티모달 확장 등을 제시한다.

화자별 음성 데이터 감정 분석 시스템

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기