완전합성곱망을 활용한 단일 마이크 음성 역잔향 제거

본 논문은 단일 마이크 입력의 음성 신호를 STFT 스펙트로그램 이미지로 변환한 뒤, 이미지‑투‑이미지 변환에 강력한 U‑Net 구조와 이를 기반으로 한 GAN을 적용해 역잔향을 제거한다. 대칭 및 비대칭 필터 설계, 스킵 연결, MSE와 GAN 손실의 결합을 통해 REVERB 챌린지 데이터에서 기존 방법들을 대부분 능가하는 성능을 보였다.

저자: Ori Ernst, Shlomo E. Chazan, Sharon Gannot

본 논문은 단일 마이크 입력 음성의 역잔향 제거를 목표로, 스펙트로그램을 이미지 형태로 변환한 뒤 이미지‑투‑이미지 변환에 특화된 완전합성곱망(FCN) 구조를 적용한다. 저자들은 먼저 역잔향 현상을 STFT 로그 스펙트럼 이미지에서 “흐림” 현상으로 해석하고, 이를 복원하기 위해 U‑Net 기반 인코더‑디코더 네트워크를 설계하였다. U‑Net은 인코더 단계에서 입력을 점진적으로 다운샘플링해 전역적인 수용 영역을 확보하고, 디코더 단계에서 업샘플링하면서 스킵 연결을 통해 저수준 세부 정보를 직접 전달한다. 이러한 구조는 이미지 복원 분야에서 널리 사용되며, 시간‑주파수 패턴을 보존하면서 역잔향에 의해 손상된 스펙트럼을 효과적으로 복구한다. 네트워크 구현 세부 사항은 다음과 같다. 인코더는 64, 128, 256, 512 필터를 각각 5×5 크기의 Conv‑BatchNorm‑LeakyReLU 레이어로 구성하고, 디코더는 Deconv‑BatchNorm‑Dropout‑ReLU 혹은 Deconv‑BatchNorm‑ReLU 레이어를 사용한다. 최종 출력은 tanh 활성화 함수를 통해

완전합성곱망을 활용한 단일 마이크 음성 역잔향 제거

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기