BiFormer3D 위치 인코딩 트랜스포머 기반 그리드프리 시간 영역 HRIR 재구성

본 논문은 청취자별로 제한된 수의 HRIR 측정만으로도 3차원 임의 방향의 HRIR을 정확히 예측하는 시간‑도메인 트랜스포머 모델 BiFormer3D를 제안한다. 사인형 다주파수 위치 인코딩, 마스크 기반 인페인팅, 보조 ITD/ILD 예측 헤드, Conv1D 후처리 등을 결합해 기존 주파수‑도메인, 최소 위상 가정 기반 방법보다 ITD·ILD 오류와 NMSE, 코사인 거리 모두에서 우수한 성능을 보인다.

저자: Shaoheng Xu, Chunyi Sun, Jihui Zhang

BiFormer3D 위치 인코딩 트랜스포머 기반 그리드프리 시간 영역 HRIR 재구성
본 연구는 개인화된 청취자를 위한 HRIR(Head‑Related Impulse Response) 측정 비용을 크게 낮추기 위해, 소수의 측정값만으로 3차원 임의 방향의 HRIR을 고품질로 재구성하는 새로운 딥러닝 프레임워크 BiFormer3D를 제안한다. 기존 연구들은 주로 주파수‑도메인에서 magnitude만을 모델링하고 최소 위상(MP) 가정을 적용하거나, 고정된 방향 그리드에 의존해 공간 연속성을 손상시키는 한계가 있었다. 이러한 문제점을 해결하고자 저자는 시간‑도메인에서 직접 파형을 복원하고, 그리드‑프리 방식으로 임의 방향을 지원하는 트랜스포머 기반 모델을 설계하였다. 문제 정의는 다음과 같다. 청취자당 M개의 측정된 HRIR과 그 좌표(x_meas) 가 주어지면, N개의 미측정 목표 방향(x_tgt)에 대한 HRIR을 예측한다. 전체 L=M+N개의 방향을 하나의 토큰 시퀀스로 구성하고, 측정된 행은 실제 HRIR을, 미측정 행은 0으로 초기화한다. 마스크 iℓ는 각 토큰이 관측된 여부를 표시한다. BiFormer3D의 핵심 구성 요소는 크게 네 부분으로 나뉜다. 첫째, **위치 인코딩**이다. 각 3‑D 좌표를 다중 주파수 사인·코사인 함수(2π·2^p·x, p=0…P‑1)로 변환해 고차원 임베딩 γ(xℓ)를 만든 뒤, 선형 투사와 레이어 정규화를 거쳐 공간 임베딩 pℓ을 얻는다. 둘째, **신호 인코딩**이다. HRIR 파형 hℓ을 GELU·선형 변환·정규화하여 잠재 특징 eℓ을 만든다. eℓ와 pℓ을 결합해 토큰 oℓ을 형성한다. 셋째, **트랜스포머 인코더**는 다중 헤드 자기‑주의 메커니즘을 이용해 모든 토큰 간 전역적인 공간 상관관계를 학습한다. 마스크 iℓ는 키‑값 연산에서 미측정 토큰을 제외해 실제 관측값만이 정보 흐름에 기여하도록 한다. 인코더를 T층 통과하면 각 방향에 대한 컨텍스트 cℓ가 얻어진다. 넷째, **디코더와 후처리**이다. 공유 MLP 디코더가 cℓ을 2K 차원의 바이노럴 HRIR(좌·우 결합)으로 복원하고, 마스크드 퓨전을 통해 측정된 행은 그대로 유지한다. 이후 Conv1D 모듈이 행을 고도·방위 순으로 재정렬한 뒤 1‑D 컨볼루션을 적용해 지역적인 시간 일관성을 강화한다. 학습 손실은 네 가지 요소로 구성된다. (1) Lrec: 미측정 방향 파형 L2 손실, (2) LHR_TF: 복소수 HRTF(DFT) 차이에 대한 L2 손실, (3) LITD와 LILD: 보조 헤드가 예측한 ITD·ILD와 정답 간 L1 손실. 전체 손실은 Ltotal = Lrec + λHR_TF·LHR_TF + λITD·LITD + λILD·LILD 로 정의되며, λITD=λILD=0.05, λHR_TF=500 으로 설정하였다. 실험은 200명 이상의 청취자를 포함한 SONICOM 데이터베이스(793 방향, 48 kHz, K=256)를 사용하였다. 훈련은 첫 180명, 검증은 다음 20명을 대상으로 진행했으며, 측정 sparsity M을 3, 5, 19, 100으로 변동시켜 성능을 평가했다. 비교 대상은 기존 주파수‑도메인 기반 베이스라인(Nbr, HR TF‑Sel‑ITD, HR TF‑Sel‑LSD, NF‑CbC, NF‑LoRA, RANF)이며, 주로 ITD 오류와 ILD 오류를 기준으로 비교하였다. 결과는 다음과 같다. BiFormer3D는 모든 M에서 ILD 오류가 최저이며, 특히 M=3·5에서 ITD 오류도 가장 낮았다. NMSE는 M=3일 때 -6.90 dB, M=100일 때 -10.20 dB까지 개선되었고, 코사인 거리(CD) 역시 0.233에서 0.102까지 감소하였다. 시각적으로는 793 방향 전체에 걸친 HRIR 파형이 원본과 거의 일치함을 확인할 수 있었다. 아울러 소거 실험을 통해 각 모듈의 기여도를 검증하였다. 사인형 위치 인코딩을 제거하면 NMSE가 -4.99 dB로 급격히 악화되고 ITD·ILD 오류가 크게 증가한다. ITD/ILD 헤드 제거 시 NMSE는 약간 개선되지만 binaural cue 오류가 상승한다. Conv1D 후처리를 없애면 시간적 일관성이 떨어져 NMSE와 CD가 악화된다. 복소수 HRTF 손실을 제외하면 전체 성능이 소폭 감소한다. 마지막으로 최소 위상 전처리를 적용하면 NMSE와 CD가 다소 감소하지만 ITD·ILD 오류가 증가해, 최소 위상 가정이 불필요함을 확인했다. 이러한 분석을 종합하면 BiFormer3D는 (1) 시간‑도메인 직접 모델링으로 위상 정보를 자연스럽게 보존, (2) 사인형 다주파수 위치 인코딩으로 그리드‑프리, 연속적인 방향 예측 가능, (3) 보조 ITD/ILD 헤드가 물리적 binaural cue 일관성을 강화, (4) Conv1D 기반 로컬 정제가 파형 세부 구조를 정교하게 복원한다는 장점을 가진다. 따라서 실시간 VR/AR, 객체 기반 오디오, 그리고 개인화된 청취자 모델링에 적용하기에 충분히 정확하고 효율적인 HRIR 공간 업샘플링 솔루션으로 평가된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기