HRTF 기반 양이음 청취자 대상 화자 추출 및 실환경 검증
** 본 논문은 청취자의 개인별 HRTF를 공간 사전 정보로 활용해 양이음(두 채널) 음성 혼합에서 목표 화자를 정확히 추출하는 딥러닝 프레임워크를 제안한다. 다채널 블라인드 소스 분리(NBSS) 백본에 HRTF 조건화를 결합해 방향성 왜곡 없이 청취 위치를 보존하면서 음성 품질과 이해도를 향상시킨다. 시뮬레이션과 헤드‑앤‑토르소 시뮬레이터(HATS) 실험을 통해 기존 DOA 기반 방법보다 SI‑SDR, PESQ, ITD/ILD 일관성에서 …
저자: Yoav Ellinson, Sharon Gannot
**
본 논문은 청취자의 개인별 HRTF(Head‑Related Transfer Function)를 명시적인 공간 사전 정보로 활용해 양이음(두 채널) 음성 혼합에서 목표 화자를 정확히 추출하는 새로운 딥러닝 프레임워크를 제안한다. 기존의 목표 화자 추출(TSE) 방법은 주로 화자 등록 음성이나 DOA(방향) 추정에 의존했으며, 이 과정에서 청취자가 인식하는 공간 위치가 왜곡되는 문제가 있었다. 특히, 청취자의 머리와 귀 형태에 따라 달라지는 HRTF는 방위·고도에 대한 정확한 양이음 차이를 제공함에도 불구하고, 기존 연구에서는 이를 충분히 활용하지 못했다.
**문제 정의 및 수학적 모델링**
논문은 두 명의 동시 화자가 존재하는 방에서 양이음 마이크(좌·우)로 녹음된 혼합 신호 \(x_B(k,\ell)\)를 다음과 같이 모델링한다. 각 화자 \(s\)는 스펙트럼 \(y_s(k,\ell)\)와 해당 화자의 방위·고도에 대응하는 BRIR(Binaural Room Impulse Response) \(h_{B,s}(k)\)의 곱으로 표현된다. BRIR은 직접 경로와 여러 반사 경로의 합으로 구성되며, 각 반사 경로는 HRTF \(\,h_{\text{hrtf}}(\theta_{s,m},\phi_{s,m},k)\)와 감쇠·지연 파라미터 \(\alpha_{s,m},\tau_{s,m}\)의 선형 결합으로 나타낸다. 목표 화자의 직접 경로 HRTF만을 추출 단서로 사용함으로써, 청취자가 실제로 인지하는 위치와 일치하는 양이음 cue(ILD, ITD)를 보존한다.
**모델 아키텍처**
제안된 시스템은 NBSS(Narrow‑band Deep Speech Separation) 프레임워크를 기반으로 한다. 입력은 복소수 STFT 형태의 양이음 혼합 \(x_B(k,\ell)\)와 목표 화자의 직접 경로 HRTF \(h_{\text{hrtf}}(\theta_s,\phi_s,k)\)이다. 두 입력은 각각 실수·허수 파트를 분리해 1‑D·2‑D 컨볼루션 인코더를 통해 차원 \(d\)의 잠재 표현으로 변환한다. HRTF 특징은 시간 축으로 복제되어 잠재 공간에 element‑wise 곱을 수행함으로써 ‘조건화’가 이루어진다. 이후 8개의 NBC2(Self‑Attention) 블록이 주파수 대역 내 상관관계를 학습하고, 최종 선형 디코더가 복소수 스펙트럼 \(\hat y_B(k,\ell)\)을 출력한다. 이 구조는 HRTF가 제공하는 방향 정보를 스펙트럼 마스크에 직접 주입해 목표 화자와 동일한 공간 특성을 가진 주파수 성분을 강조하고, 다른 화자와의 혼합을 억제한다.
**학습 손실**
주요 손실은 양이음 채널 전체에 대한 SI‑SDR(Scale‑Invariant Signal‑to‑Distortion Ratio)이며, 두 채널에 대해 평균을 취한다. 추가적으로 STFT 도메인 MAE 손실을 병행 사용해 스펙트럼 형태를 정밀하게 맞추었다. 최종 파인튜닝 단계에서는 MAE를 제외하고 SI‑SDR만을 사용해 정량적 성능을 극대화한다. 이러한 손실 설계는 에너지 스케일에 무관하게 일관된 품질 향상을 보장한다.
**데이터 및 실험 설정**
학습·검증 데이터는 WSJ0 코퍼스를 사용해 SOFA‑MyRoom 프레임워크로 시뮬레이션하였다. 방의 잔향시간 T60은 0.2~0.8 s, SIR은 –5~5 dB 범위에서 무작위로 설정하였다. HRTF는 ARI, SONICOM, RIEC, SADIE, SS2, VIKING, HRIR‑CIRC360 등 7개 데이터베이스에서 789명의 청취자를 대상으로 측정된 실제 데이터를 사용했다. 훈련·검증에는 16 k, 4 k, 테스트에는 2 k개의 발화를 사용했으며, 테스트에서는 각 데이터베이스에서 1명씩 총 7명의 전혀 보지 않은 청취자를 사용해 교차 청취자 일반화 능력을 평가하였다.
**경쟁 방법 및 비교**
경쟁 방법으로는 동일한 NBSS‑small 백본에 DOA 기반 추출 단서(BDE+CDF+IPD+SDF)를 적용한 DOA‑BDE 모델을 사용하였다. 두 모델을 동일한 데이터와 동일한 하이퍼파라미터로 학습시켰다.
**실제 녹음 실험**
실제 환경 검증을 위해 HATS(Head and Torso Simulator)를 이용해 T60 = 0.37 s인 방에서 240개의 양이음 혼합을 녹음하였다. 스피커는 1° 간격으로 회전 가능한 턴테이블에 배치했으며, 화자 간 방위 차이는 20°~90°까지 10° 간격으로 설정하였다. 제안 모델은 HA‑TS 데이터베이스에 포함된 HRTF를 사용했으며, DOA‑BDE는 실제 측정된 DOA를 입력으로 사용하였다.
**평가 지표**
성능 평가는 SI‑SDRi, PESQ, ITD/ILD 차이(ΔITD, ΔILD) 및 비침해 품질(NISQA) 등을 사용했다. 시뮬레이션 결과, 제안 모델은 SI‑SDRi 15.77 dB, PESQ 3.03, ΔITD 0.044 ms, ΔILD 0.349 dB를 기록해 DOA‑BDE(13.88 dB, 2.74, 0.982 ms, 0.479 dB)보다 전반적으로 우수했다. 실제 녹음에서도 NISQA 점수가 높은 등 공간 일관성과 음성 품질 모두에서 개선을 보였다.
**핵심 기여 및 의의**
1. **HRTF 기반 조건화**: 청취자‑특이적인 HRTF를 직접 입력으로 사용해 목표 화자의 방위 정보를 명시적으로 제공함으로써, 양이음 cue를 보존하면서도 화자 선택성을 강화한다.
2. **청취자 일반화**: 789명의 다양한 HRTF를 학습에 포함시켜, 새로운 청취자에 대해 별도 튜닝 없이도 높은 성능을 유지한다.
3. **NBSS와 자기‑주의 결합**: 좁은 대역 처리와 NBC2 블록을 결합해 실시간 가능성을 유지하면서도 복잡한 반향 환경에서도 강인한 추출을 구현한다.
4. **실세계 검증**: 시뮬레이션뿐 아니라 HATS를 이용한 실제 방 녹음에서 동일하게 우수한 성능을 입증, 착용형 보청기·AR/VR 헤드셋 등 실시간 양이음 애플리케이션에 직접 적용 가능성을 제시한다.
**결론**
본 연구는 HRTF를 명시적 공간 사전 정보로 활용한 양이음 목표 화자 추출 프레임워크를 제시함으로써, 기존 DOA 기반 방법이 갖는 공간 왜곡 문제를 해결하고, 청취자‑특이적인 공간 일관성을 유지하면서도 높은 음성 품질을 달성한다. 대규모 청취자 HRTF 학습과 실제 환경 검증을 통해 모델의 일반화 능력과 실용성을 입증했으며, 향후 착용형 청각 보조 기기 및 몰입형 미디어 시스템에 적용될 수 있는 기반 기술로서 큰 기대를 모은다.
**
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기