시간영역 오디오 분리 네트워크 TasNet: 실시간 단일채널 음성 분리 혁신

TasNet은 STFT 기반의 시간‑주파수 마스크 방식 대신, 1‑D 컨볼루션 인코더‑디코더 구조를 이용해 원시 파형을 직접 처리한다. 인코더가 비음성 가중치 벡터를 추출하고, LSTM 기반 마스크 추정기로 각 화자에 대한 마스크를 만든 뒤, 디코더가 학습된 기반 신호와 결합해 원본 파형을 복원한다. 비인과적·인과적 두 구성 모두 기존 최첨단 방법을 능가하며, 5 ms 이하의 초저지연을 구현한다.

저자: Yi Luo, Nima Mesgarani

시간영역 오디오 분리 네트워크 TasNet: 실시간 단일채널 음성 분리 혁신
본 논문은 다중 화자 환경에서의 단일 채널 음성 분리 문제를 해결하기 위해, 전통적인 시간‑주파수(T‑F) 기반 접근법의 한계를 지적하고 완전한 시간‑도메인 솔루션인 TasNet(Time‑domain Audio Separation Network)을 제안한다. 기존 방법은 STFT를 통해 신호를 복소수 스펙트럼으로 변환하고, magnitude에 마스크를 적용해 화자별 스펙트럼을 추정한다. 그러나 이 과정은 위상‑크기 분리의 비효율성, 긴 윈도우에 의한 지연, 그리고 주파수 해상도와 시간 해상도 사이의 트레이드‑오프라는 구조적 문제를 안고 있다. TasNet은 이러한 문제를 근본적으로 회피한다. 입력 파형 x(t)를 일정 길이 L(5 ms, 8 kHz 기준 40 샘플)으로 나누어 세그먼트 x_k를 만든 뒤, 1‑D gated convolution 인코더를 통해 비음성 가중치 w_k∈ℝ^{1×N} (N=500) 를 추출한다. 여기서 gated 구조는 ReLU와 sigmoid의 element‑wise 곱으로 비음성을 보장한다. 인코더와 디코더는 각각 1‑D convolution과 transposed convolution(디컨볼루션) 형태이며, 디코더의 필터 집합 B∈ℝ^{N×L}가 학습된 basis signal 역할을 한다. 다음 단계는 인코더가 출력한 가중치 시퀀스 {w_k}를 LSTM 기반 마스크 추정기에 입력하는 것이다. 인과적(uni‑directional) LSTM 4층(각 1000 hidden) 혹은 비인과적(bi‑directional) LSTM 4층(각 방향 500 hidden) 구조를 사용한다. LSTM 출력은 softmax 레이어를 거쳐 각 화자 i에 대한 마스크 m_i,k∈ℝ^{1×N} 로 변환된다. 마스크는 원래 가중치 w_k와 element‑wise 곱해져 화자별 가중치 d_i,k = m_i,k ⊙ w_k 를 만든다. 디코더는 d_i,k와 학습된 basis B를 행렬곱해 각 세그먼트의 파형 S_i,k = d_i,k B 로 복원한다. 이는 1‑D transposed convolution과 동일한 연산이며, 별도의 위상 복원 과정이 필요 없다는 장점이 있다. 전체 세그먼트를 이어 붙여 최종 화자별 파형 s_i(t)를 얻는다. 학습 목표는 SI‑SNR(Scale‑Invariant Signal‑to‑Noise Ratio)을 직접 최적화하는 것이다. SI‑SNR은 신호와 잡음의 에너지 비율을 스케일에 무관하게 측정한다. 퍼뮤테이션 불변 트레이닝(PIT) 기법을 적용해 화자 순서에 대한 ambiguity를 해결한다. 또한, 인코더 출력에 layer‑norm‑유사 정규화(가중치 평균·표준편차 기반)와 LSTM 사이에 skip connection을 도입해 학습 안정성과 수렴 속도를 높였다. 실험은 WSJ0‑2mix 데이터셋(30 h 훈련, 10 h 검증, 5 h 테스트)에서 수행되었다. 파형은 8 kHz로 다운샘플링했으며, 두 화자를 무작위 SNR(0–5 dB)으로 혼합했다. 인과적 TasNet‑LSTM은 SI‑SNR 개선(SI‑SNRi) 7.7 dB, SDR 개선(SDRi) 8.0 dB를 기록했으며, 비인과적 TasNet‑BLSTM은 각각 10.8 dB와 11.1 dB로 기존 최고 성능인 DPCL++(10.8 dB), uPIT‑BLSTM‑ST(10.0 dB) 등을 모두 앞섰다. 지연 분석에서는 초기 대기시간 T_i가 인코더 세그먼트 길이와 동일한 5 ms이며, 평균 처리 시간 T_p가 0.23 ms(프레임당)로 측정돼 전체 지연 T_tot이 5.23 ms에 불과했다. 반면, STFT 기반 시스템은 최소 32 ms의 윈도우 지연에 추가적인 연산 지연이 더해져 실시간 적용에 부적합했다. 학습된 basis 신호 B의 주파수 응답을 분석하면, 저주파 영역에 높은 해상도를 제공하고, 중심 주파수가 높아질수록 대역폭이 넓어지는 멜‑필터와 유사한 특성을 보인다. 특히 60 % 이상의 basis가 1 kHz 이하에 집중돼 저주파 해상도가 화자 구분에 중요한 역할을 함을 시사한다. 결론적으로, TasNet은 시간‑도메인 인코더‑디코더와 마스크 기반 비음성 분해를 결합해, 높은 분리 성능과 초저지연을 동시에 달성한다. 이는 착용형 디바이스, 실시간 통신, 저전력 임베디드 시스템 등 실시간 음성 처리 요구가 높은 응용 분야에 매우 적합한 구조이며, 향후 더 복잡한 다중 화자·다중 모달리티 상황에도 확장 가능성을 보여준다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기