다채널 입력을 위한 다중 시점 신경망 기반 잡음 제거

본 논문은 다중 마이크로부터 수집된 여러 잡음 신호를 하나의 깨끗한 오디오 신호로 복원하는 새로운 딥러닝 프레임워크를 제시한다. 기존의 다채널 딥러닝 기반 잡음 제거 방법은 훈련 시 사용한 채널 수와 동일한 구성을 추론 단계에서도 요구했으며, 이는 하드웨어 구성 변화에 취약했다. 이를 해결하고자 저자들은 “다중 시점 네트워크(Multi‑View Network, MVN)”라는 개념을 도입하였다. MVN은 여러 채널을 각각의 “시점(view)”으로 간주하고, 이 시점들을 순환 신경망(RNN) 구조를 통해 통합한다. 두 가지 아키텍처가 제안된다. 첫 번째는 1‑D MVN으로, 입력된 각 채널의 스펙트럼 프레임을 시간 축이 아닌 채널 축을 따라 순차적으로 처리한다. 구체적으로, 동일한 시간 인덱스 t에 대해 채널 1부터 k까지의 입력 x₁,t, x₂,t, …, x_k,t를 차례대로 GRU에 입력하고, 각 단계에서 은닉 상태 h_i,t를 업데이트한다. 마지막 채널의 은닉 상태 h_k,t를 이용해 복원 스펙트럼 y_t를 예측한다. 이 방식은 채널 수가 훈련 시와 다르더라도 동일한 순환 메커니즘을 그대로 적용할 수 있어, 임의의 채널 수에 대한 확장성을 제공한다. 두 번째는 2‑D MVN으로, 시간 차원과 채널 차원을 동시에 순환한다. 시간 차원에서는 전통적인 RNN이 적용되어 이전 시간 단계의 은닉 상태 h_i,t‑1을 활용하고, 채널 차원에서는 현재 시간 단계의 각 채널이 이전 채널의 은닉 상태 h_{i‑1,t}를 받아들인다. 수식 (2)에서 보듯이, 첫 번째 채널은 이전 시간 단계의 은닉 상태를, 이후 채널들은 바로 앞 채널의 은닉 상태를 사용한다. 이렇게 하면 특정 시간에 가장 높은 SNR을 가진 채널을 자동으로 선택하고, 그 정보를 시간적으로도 누적할 수 있다. 모델은 1024‑point DFT를 입력으로 받아 512 차원으로 차원 축소하는 완전 연결층을 거친 뒤, GRU(숨김 차원 512)를 적용하고, 다시 1024 차원으로 복원하는 출력 완전 연결층을 거쳐 ISTFT를 수행한다. 활성화 함수는 softplus를 사용했으며, 손실 함수는 SDR‑proxy 손실을 채택해 음성 품질을 직접 최적화한다. 실험은 두 가지 시나리오로 구성되었다. 첫 번째는 정적 잡음 설정으로, 각 채널의 SNR이 고정된 상태에서 채널 수와 순서를 다양하게 변형하였다. 채널 수가 증가함에 따라 SDR이 크게 향상되었으며, 특히 SNR이 낮은 채널이 뒤에 배치되더라도 성능 저하가 거의 없었다. 이는 모델이 채널 순서에 불변함을 입증한다. 두 번째는 동적 잡음 설정으로, 잡음원이 원형 경로를 따라 이동하면서 각 마이크에 도달하는 순간 SNR이 변한다. 훈련 시 5채널만 사용했음에도 불구하고, 테스트 시 10채널, 15채널 등 더 많은 채널을 제공하면 SDR이 지속적으로 개선되는 현상이 관찰되었다. 반면, 채널을 평균한 기존 RNN(averaging RNN)은 채널 수가 늘어나도 성능이 거의 변하지 않았다. 추가적으로, 2‑D MVN은 양방향 GRU를 사용해 채널 순서에 대한 대칭성을 확보했으며, 마지막 채널의 은닉 상태만을 사용한 것이 가장 좋은 성능을 보였다. 실험 결과는 MVN이 (1) 훈련‑추론 시 채널 수 불일치 문제 해결, (2) 채널 순서와 품질에 대한 강인성 확보, (3) 시간‑채널 상호작용을 통한 정보 효율적 통합, (4) 기존 평균화 기반 방법 대비 현저한 SDR 향상이라는 네 가지 핵심 장점을 제공함을 보여준다. 결론적으로, 제안된 MVN은 채널 수가 동적으로 변하는 실제 환경(예: 회의 시스템, 로봇 청각, 스마트 스피커 등)에서 효과적으로 적용될 수 있는 범용적인 다채널 잡음 제거 솔루션이다. 향후 연구에서는 실시간 구현, 비정형 마이크 배열, 그리고 비음성 신호에 대한 확장 가능성을 탐구할 여지가 있다.

다채널 입력을 위한 다중 시점 신경망 기반 잡음 제거

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기