진폭 변조 스펙트럼 기반 양이음원 위치 추정 및 결정 풀링
본 논문은 청각 보조기용 4개의 카디오이드 마이크 신호에서 36개의 AMS(Amplitude Modulation Spectrum) 특징을 추출하고, 6개의 LDA 분류기를 이용해 5° 간격으로 이동시킨 클래스 정의를 결합해 2 s 구간마다 방위각을 추정한다. 모델 기반 최적화로 필터 대역을 조정하고, 72개의 방위각(5° 간격)으로 학습된 데이터셋을 사용한다. 개발 데이터셋(LOCATA)에서 평균 절대 오차(MAE) 4.95°를 달성했으며, 기…
저자: Semih Au{g}caer, Rainer Martin
본 논문은 청각 보조기용 양이음원(양쪽 귀) 마이크 배열에서 소리의 방위각을 추정하기 위해 진폭 변조 스펙트럼(AMS) 특징을 활용한 새로운 접근법을 제시한다. 기존의 ITD(Interaural Time Difference)·ILD(Interaural Level Difference) 기반 방법과 달리, 저자들은 인간 청각 시스템에서 영감을 받은 AMS 특징을 추출하여 방위각 정보를 암묵적으로 포함시키는 전략을 채택하였다.
특징 추출은 두 단계의 필터뱅크로 구성된다. 첫 번째 단계에서는 입력 신호를 3개의 스펙트럼 대역(Ns=3)으로 분할하고, 두 번째 단계에서는 각 스펙트럼 대역에 대해 3개의 변조 대역(Nm=3)을 적용해 진폭 변조 패턴을 분석한다. 이렇게 하면 각 마이크 채널당 9개의 특징이 생성되며, 4개의 카디오이드 마이크(전·후·좌·우) 신호를 동시에 처리함으로써 총 36차원의 특징 벡터가 얻어진다. 필터 대역의 중심 주파수와 대역폭은 모델 기반 최적화(MBO) 기법을 통해 자동으로 튜닝되며, 이는 분류 오류를 최소화하는 블랙박스 최적화 방법이다.
분류 단계에서는 Linear Discriminant Analysis(LDA) 모델을 사용한다. 저자들은 6개의 분류기 집합을 설계했으며, 각 집합은 30° 구간을 12개의 클래스로 나누고, 집합 간에 5°씩 회전하도록 배치했다. 이렇게 하면 6×12=72개의 방위각(5° 간격)을 커버할 수 있다. 각 2 s 길이의 프레임에 대해 5‑fold 교차 검증을 4‑fold로 중첩 수행해 총 120개의 LDA 모델을 학습한다.
최종 방위각 추정은 120개의 모델이 출력한 72개의 라벨에 대해 투표(pooling)하고, 가장 빈도가 높은 두 값을 평균해 결정한다. 이 다중 모델·다중 시점 투표 구조는 잡음, 스피커 변동, SNR 변화에 대한 강인성을 제공한다.
학습 데이터는 Oldenburg HRIR 데이터베이스를 활용해 0°부터 355°까지 5° 간격으로 72개의 방위각을 시뮬레이션했으며, 각 방위각당 18개의 10 s 오디오 파일(스피커·노이즈·SNR 변형 포함)을 생성해 총 3시간 36분의 데이터셋을 구축했다.
실험은 IEEE‑AASP LOCATA 챌린지의 개발 세트(3개의 녹음, 48 kHz→20 kHz 다운샘플링)에서 수행되었다. 2 s 프레임을 이용해 전체 녹음에 대해 하나의 방위각을 추정했으며, 평균 절대 오차(MAE)는 4.95°였다. 이는 기존 MUSIC 기반 베이스라인보다 4.25° 개선된 수치이다. 또한 실시간 성능을 나타내는 실시간 계수(RTF)는 0.7로, MUSIC의 9.1에 비해 13배 빠른 처리 속도를 보였다.
본 방법은 ITD/ILD를 직접 계산하지 않기 때문에 마이크 동기화와 머리 크기 보정에 대한 의존도가 낮으며, 변조 패턴에 내재된 레벨 차이를 통해 암묵적으로 ILD 정보를 활용한다. 이는 보청기·헤드폰 등 다양한 착용형 디바이스에 적용하기에 유리하다. 다만, 변조 대역 선택과 필터 파라미터가 환경에 따라 민감할 수 있어, 실시간 환경 적응형 MBO와 같은 추가 연구가 필요하다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기