성별이 무성음에 미치는 영향: 주관·객관 실험

본 논문은 화자 성별이 무성음(무성 파열음·마찰음·정지음) 구간의 음향 특성에 미치는 영향을 체계적으로 탐구한다. 서론에서는 기존 연구가 주로 유성음의 포먼트와 성별·연령에 대한 의존성을 강조했으며, 무성음은 포먼트 구조가 없고 음향적 변동이 적어 성별 영향이 불분명하다는 점을 지적한다. 이를 검증하기 위해 두 가지 실험을 설계하였다. 첫 번째는 주관적 청취 실험이다. TIMIT 코퍼스에서 4~6단어 길이의 짧은 문장을 선택하고, 동일 문장을 남·여 화자가 각각 녹음한 음성 데이터를 이용해 무성 구간을 교체한 변형 발화를 만든다. 교체 과정은 두 화자의 음소 라벨 시퀀스를 V(유성)·U(무성)로 매핑하고, V→U·U→V 전환 시점을 동적 프로그래밍으로 정렬한 뒤, 매핑 테이블을 기반으로 무성 구간만 상대 화자의 구간으로 대체한다. 스무딩을 적용해 이음새에서 발생할 수 있는 급격한 파형 변화를 최소화하였다. 변형 종류는 (a) 무성 구간만 교체(M< FU, F< MU)와 (b) 무성 구간에 더해 두 개 연속된 유성 구간을 동시에 교체(M< FvU, F< MvU)로 나뉜다. 청취자 50명(남·여 각각 25명)에게 원본과 변형 25개씩을 무작위 순서로 제시하고, “한 화자” 혹은 “두 화자”로 판단하게 하였다. 결과는 무성 구간만 교체한 경우 청취자들이 변형을 전혀 감지하지 못했으며(정답률 0 %~0.4 %), 두 개 유성 구간을 추가로 교체한 경우에는 거의 완벽하게 두 화자를 인식했다(정답률 99 %~100 %). 이는 인간 청취가 무성음에서 화자 성별 정보를 거의 활용하지 않으며, 무성음 자체가 화자 구분에 크게 기여하지 않음을 강력히 시사한다. 두 번째는 객관적 음성 인식 실험이다. Kaldi 툴킷을 이용해 남·여 각각의 TIMIT 훈련 데이터를 사용해 네 종류의 HMM 기반 음소 인식 모델을 학습시켰다. 모델은 (i) 단일음소(Mono), (ii) 삼중음소(Tri), (iii) LDA+MLLT 기반 삼중음소(LMT), (iv) LDA+MLLT+SAT 기반 삼중음소(LMST)이다. 테스트 데이터는 (a) 동일 성별 원본 발화, (b) 반대 성별 원본 발화, (c) 무성 구간만 교체한 변형(M< FU, F< MU), (d) 무성 구간과 두 개 연속된 유성 구간을 동시에 교체한 변형(M< FvU, F< MvU), (e) 정지·마찰음만 교체한 변형(M< FSSt, F< MSSt) 등이다. 성능 평가는 전화 오류율(PER)로 측정하였다. 남성 모델이 남성 원본에 적용될 때 PER는 Mono 25.3 %에서 LMST 16.8 %까지 감소했으며, 무성 구간만 교체한 M< FU에서는 18.6 %로 1.8 % 상승했다. 정지·마찰음만 교체한 M< FSSt에서는 18.2 %로 1.4 % 상승했으며, 두 개 유성 구간까지 교체한 M< FvU에서는 23.2 %까지 가장 크게 악화되었다. 여성 모델에 대한 결과도 유사하게 나타났지만, 전반적으로 남성 모델보다 PER가 높았다. 특히, 무성 구간 교체에 따른 성능 저하가 정지·마찰음 교체보다 작았으며, 이는 무성음이 성별에 덜 민감함을 뒷받침한다. 결론에서는 두 실험이 상호 보완적인 결과를 제시한다는 점을 강조한다. 청취 실험은 인간이 무성음에서 화자 성별 정보를 거의 사용하지 않으며, 무성음이 화자 인식에 크게 기여하지 않음을 보여준다. 반면, MFCC 기반 HMM 인식기는 무성음에서도 성별 차이를 어느 정도 포착하지만, 그 영향은 유성음에 비해 제한적이다. 이는 현재 음성 인식 시스템이 무성음에 대한 성별 특성을 충분히 모델링하지 못하고 있음을 시사한다. 향후 연구에서는 무성음에 대한 보다 정교한 음향 특징(예: 고주파 스펙트럼, 위상 정보)과 화자 정규화 기법을 도입해 성별 영향을 최소화하고, 무성음 기반 화자 인식 및 포렌식 음성 비교에 활용할 수 있는 새로운 방법론을 모색할 필요가 있다.

성별이 무성음에 미치는 영향: 주관·객관 실험

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기