단일채널 음성 반향제거를 위한 GAN 기반 CBLDNN 모델
본 논문은 컨볼루션·양방향 LSTM·전결합 신경망(CBLDNN) 구조에 조건부 생성적 적대 신경망(GAN) 학습을 결합한 단일채널 음성 반향제거 시스템 DeReGAT을 제안한다. 마스크 기반 학습과 L1 손실을 포함한 LS‑GAN 손실을 사용해 MSE만을 최소화하는 기존 방식의 한계를 극복하고, 다양한 RT60 환경과 실시간 처리에서도 높은 PESQ·SRMR 성능을 달성한다.
저자: Chenxing Li, Tieqiang Wang, Shuang Xu
본 논문은 실내 환경에서 마이크 하나만 사용해 녹음된 음성 신호에 포함된 반향을 제거하는 새로운 방법론을 제시한다. 전통적인 반향제거 기법은 방 임펄스 응답(RIR)을 직접 추정하거나 다채널 선형 예측(MCLP), 빔포밍 등 복잡한 파이프라인을 필요로 했으며, 최근에는 Weighted Prediction Error(WPE)와 같은 단일채널 접근법이 제안되었지만 전체 발화를 필요로 하거나 실시간 적용에 한계가 있었다. 또한, 딥러닝 기반 방법은 주로 MSE 손실에 의존해 스펙트럼 매핑을 수행했지만, 낮은 RT60 구간에서 성능이 제한적이고 환경 적응성이 부족했다.
이에 저자들은 컨볼루션·양방향 LSTM·전결합 신경망을 결합한 CBLDNN 구조를 기반으로, 조건부 GAN(Conditional GAN) 학습을 도입한 DeReGAT 시스템을 설계하였다. 입력은 32 ms 프레임, 16 ms 홉으로 계산된 257‑차원 STFT 스펙트럼 크기이며, 목표는 Phase‑Sensitive Mask(PSM)를 예측해 원본 스펙트럼을 복원하는 것이다. CBLDNN‑Generator는 5개의 컨볼루션 레이어(각기 다른 커널 크기와 채널 수)와 2개의 256‑유닛 양방향 LSTM을 거쳐 257개의 마스크 값을 출력한다. 이 마스크와 원본 스펙트럼의 원소별 곱을 통해 복원된 스펙트럼을 얻고, 역 STFT를 적용해 시간 영역 음성을 재구성한다.
판별기(Discriminator)는 BLCDNN 구조로, 2개의 BLSTM과 다중 크기(5×5, 3×3, 1×1) 컨볼루션을 사용해 입력 스펙트럼의 특징을 추출한다. 각 컨볼루션 맵에 1‑max‑pooling을 적용해 고정 길이 벡터를 만든 뒤 전결합 층을 통해 “깨끗함” 점수를 출력한다. 학습은 LS‑GAN 손실과 L1 기반 PSM 손실을 결합한 형태로, λ=1을 사용해 두 손실의 균형을 맞추었다. 이는 GAN 특유의 비정형 손실이 과도하게 불안정해지는 것을 방지하고, 마스크 예측 정확성을 동시에 확보한다.
데이터 준비 단계에서는 WSJ0 청음 데이터를 활용해 3가지 방 크기(A, B, C)와 2가지 방(D, E)에서 RIR을 시뮬레이션했다. 훈련 세트는 RT60 0–700 ms, 테스트 세트는 70–600 ms 구간을 균등 샘플링해 각각 38 328, 3 618, 1 302개의 발화를 구성했다. 실험에서는 PESQ와 SRMR을 주요 지표로 삼아, (1) 기존 WPE, (2) 동일 구조이지만 MSE 손실만 사용하는 CBLDNN, (3) 제안된 DeReGAT을 비교했다. 결과는 모든 환경에서 DeReGAT이 가장 높은 PESQ(2.54–2.76)와 SRMR(5.42–5.70)을 기록했으며, 특히 SRMR은 깨끗한 음성(5.62–5.73)과 근접했다. 스펙트로그램 시각화에서도 DeReGAT이 반향 잔여가 최소화된 깔끔한 구조를 보여준다.
또한, 깨끗하거나 약한 반향을 포함한 입력에 대해서도 DeReGAT은 품질 저하 없이 높은 PESQ(≈4.5)를 유지했으며, 이는 시스템이 다양한 환경에 강인함을 의미한다.
온라인 적용을 위해 파라미터 업데이트 없이 미니배치(10, 20, 40 프레임) 단위로 순차 처리하는 DeReGAT‑online을 구현했다. 지연이 160 ms인 DeRe‑10에서도 PESQ 1.54, SRMR 4.96을 달성했으며, 배치 크기가 커질수록 성능이 오프라인 수준에 근접했다. 이는 실시간 음성 인식·통신 시스템에 바로 적용 가능함을 시사한다.
논문의 한계로는 (1) 실제 방 환경에서의 RIR 변동성을 충분히 반영했는지에 대한 검증 부족, (2) 잡음과 반향이 동시에 존재하는 복합 상황에 대한 실험 부재, (3) 다채널 확장에 대한 논의가 미흡한 점을 들 수 있다. 향후 연구에서는 실제 방 측정 RIR을 이용한 도메인 적응, 잡음‑반향 동시 억제 모델, 그리고 다채널 입력을 활용한 복합적 공간 필터링을 탐구할 필요가 있다. 전반적으로 DeReGAT은 단일채널 음성 반향제거 분야에서 GAN 기반 학습이 MSE‑기반 접근법을 뛰어넘을 수 있음을 실험적으로 입증한 중요한 연구이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기