딥러닝 오토인코더 기반 잡음 반향 억제 스피커 인식 강화

본 논문은 Fisher 코퍼스를 인위적으로 잡음·반향을 추가해 만든 대규모 데이터로 DNN 오토인코더를 학습하고, 이를 텍스트‑독립 스피커 인증 시스템의 전처리 단계에 적용한다. 순수 오토인코더 강화, 다조건 PLDA 학습, 그리고 두 방법을 결합했을 때 각각의 EER 변화를 정량적으로 분석한다. 실험 결과, 특히 실제 방 반향(RIR)으로 학습한 오토인코더가 가장 큰 성능 향상을 보이며, 다조건 PLDA와 결합하면 최적의 견고성을 달성한다는 …

저자: Ondrej Novotny, Oldrich Plchot, Pavel Matejka

본 논문은 잡음과 반향에 취약한 기존 스피커 인식 시스템을 개선하기 위해, DNN 기반 오토인코더와 다조건 PLDA 학습을 각각 혹은 동시에 적용하는 방법을 제안한다. 연구는 크게 네 부분으로 구성된다. 첫 번째는 배경 및 관련 연구 소개이다. 기존에는 Wiener 필터링, VAD, CMN 등 전통적인 전처리 기법과, 마이크 어레이 기반 빔포밍, 강인 특성(feature) 설계 등이 사용되어 왔지만, 최근에는 신경망을 활용한 잡음·반향 제거가 주목받고 있다. 특히, 오토인코더를 이용한 스펙트럼 매핑 방식이 여러 연구에서 좋은 성능을 보였으며, 본 연구는 이를 스피커 인증 전처리 단계에 적용한다. 두 번째는 데이터 준비와 오토인코더 학습 절차이다. Fisher 영어 코퍼스(파트 1·2)에서 약 1800시간의 청정 음성을 추출하고, 이를 인위적으로 변형한다. 잡음은 Freesound 라이브러리에서 실제 환경 소음 272개, 인공 화이트 노이즈 변형 7개, 화자 혼합 잡음 25개로 구성되며, 각각 훈련·개발·테스트 셋으로 분리한다. 반향은 실제 방 impulse response(RIR) 396개와 인공적으로 생성한 RIR 1594개를 사용한다. 각 음성에 대해 잡음·반향을 별도 경로에서 적용하고, A‑weighting을 통해 인간 청각 특성을 반영한 뒤, 목표 SNR(0‑21 dB)으로 조정한다. 마지막으로 전화 채널 필터를 적용해 전화 통화와 동일한 대역폭·특성을 갖도록 만든다. 오토인코더는 입력 차원 3999(중심 프레임 ±15프레임 로그‑스펙트럼), 은닉층 3개(각 1500 뉴런), 출력 차원 129(향상된 중앙 프레임)로 설계되었다. 손실 함수는 평균 제곱 오차(MSE)이며, Adam 옵티마이저로 학습한다. 총 5가지 오토인코더를 훈련한다: (1) 순수 잡음(N), (2) 인공 반향(AR), (3) 실제 반향(RR), (4) 잡음+인공 반향(N+AR), (5) 잡음+실제 반향(N+RR). 세 번째는 스피커 인식 시스템 구성이다. 2048‑컴포넌트 GMM‑UBM을 사용해 600 차원 i‑vector를 추출하고, LDA로 200 차원으로 축소한다. 이후 평균·길이 정규화를 적용하고, PLDA를 통해 두 i‑vector 간 유사도를 점수화한다. 특징 추출은 25 ms Hamming 창, 24 Mel 필터, 120‑3800 Hz 대역, 19 MFCC + ΔΔ(총 60 차원)으로 수행한다. VAD는 체코어 음성 인식기 기반으로 수행한다. 네 번째는 실험 설계와 결과 분석이다. 평가 데이터는 NIST SRE 2010 및 PRISM의 다양한 조건(전화‑전화, 인터뷰‑인터뷰, 인터뷰‑마이크, 노이즈·반향 변형 등)과, 새롭게 만든 실제 방 반향·다중 SNR 잡음이 추가된 tel‑tel 변형 7가지 조건을 포함한다. 성능 평가는 Equal Error Rate(EER)로 측정한다. 실험 결과는 표 1에 요약된다. (1) 청정 PLDA만 사용한 베이스라인 대비, 오토인코더(N+RR)만 적용했을 때 tel‑tel 조건에서 EER이 2.062%→1.999%로 약 3%p 감소한다. (2) 다조건 PLDA만 사용했을 때도 전반적으로 EER이 감소하지만, 오토인코더와 결합했을 때 가장 큰 개선을 보인다. 특히, 실제 반향(RR) 기반 오토인코더가 인공 반향(AR)보다 일관되게 우수했으며, 잡음·반향을 동시에 학습한 N+RR가 대부분의 조건에서 가장 범용적인 성능을 제공한다. (3) 다조건 PLDA와 N+RR 오토인코더를 동시에 적용하면, 복합적인 잡음·반향 환경에서도 EER이 0.5% 이하까지 낮아지는 경우가 있다. 결론적으로, (i) 실제 방 반향을 포함한 대규모 합성 데이터로 학습한 오토인코더는 잡음·반향 제거에 효과적이며, (ii) 다조건 PLDA는 남은 변동성을 모델링해 추가적인 견고성을 제공한다. 두 기술을 결합하면 현재 가장 강인한 스피커 인증 파이프라인을 구현할 수 있다. 향후 연구에서는 실시간 적용을 위한 경량화, 다채널 마이크 입력, 그리고 비정형 잡음(예: 음악, 방송) 등에 대한 확장성을 탐구할 예정이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기