스마트폰 기반 맞춤형 초가우시안 단일 마이크 음성 향상 기술
본 논문은 초가우시안 JMAP(SGJMAP) 기반의 단일 마이크 음성 향상 알고리즘에 ‘트레이드오프’ 파라미터를 도입하여, 사용자가 실시간으로 잡음 억제와 음성 왜곡 사이의 균형을 조절할 수 있게 한다. 구현은 iPhone 7에서 수행했으며, 객관적 지표(PESQ, STOI)와 주관적 MOS 실험을 통해 기존 JMAP·SGJMAP 대비 향상된 품질과 청취 편의성을 확인하였다.
저자: Ch, an K A Reddy, Nikhil Shankar
본 논문은 청각 장애인을 위한 보조기기, 특히 청각 보조기(HA)와 연계된 스마트폰 기반 음성 향상 시스템을 제안한다. 서론에서는 전 세계 3억 6천만 명이 청각 손실을 겪고 있으며, 기존 HA는 연산 능력과 전력 제약으로 복잡한 잡음 억제 알고리즘을 적용하기 어렵다는 점을 지적한다. 외부 마이크(펜, 목걸이) 방식은 비용과 휴대성 문제를 안고 있어, 보편적인 스마트폰을 활용하는 방안이 제시된다.
이론적 배경으로는 기존 JMAP와 그 초가우시안 확장인 SGJMAP을 소개한다. SGJMAP은 음성 스펙트럼 크기를 초가우시안 분포(p(·; μ, ν))로 모델링하고, 잡음은 가우시안으로 가정한다. 이때 사후 확률을 최대화하는 크기 추정식은 사전 SNR(ξ)와 사후 SNR(γ), 그리고 초가우시안 파라미터 μ, ν에 의존한다. 그러나 실제 환경에서는 ξ의 추정 오차가 커져 과도한 잡음 억제 혹은 음성 왜곡이 발생한다.
이를 해결하기 위해 저자는 비용 함수에 ‘트레이드오프’ 파라미터 β를 도입한다. 로그-우도 함수를 β로 가중치한 뒤 미분하여 0으로 두면 2차 방정식이 도출되고, 이를 풀어 얻은 새로운 이득 함수 Gβ는 β에 따라 ξ 의존도가 조절된다. β→0이면 이득이 ξ에 거의 의존하지 않아 잡음 억제는 약하지만 음성 왜곡이 최소화되고, β→∞이면 기존 SGJMAP과 동일한 동작을 한다.
알고리즘 흐름은 다음과 같다. 입력 신호를 25 ms(256 샘플) 프레임으로 나누어 FFT를 수행하고, 크기와 위상을 분리한다. VAD를 이용해 초기 2 초 동안 잡음 파워를 추정한다. 이후 각 프레임마다 ξ와 γ를 계산하고, 사전에 정해진 μ, ν와 사용자 설정 β를 적용해 Gβ를 구한다. 추정된 크기에 원본 위상을 곱해 IFFT를 수행, 향상된 음성을 출력한다.
스마트폰 구현은 iPhone 7(iOS 10.3)과 Xcode, Core Audio를 사용했으며, 프레임당 1.4 ms 처리 시간으로 실시간 동작이 가능하다. 배터리 소모는 1960 mAh 배터리 기준 약 6.3 시간 연속 사용을 지원한다. 향상된 신호는 Bluetooth Low Energy를 통해 HA에 전송된다.
실험은 객관적 지표와 주관적 청취 테스트로 구성된다. 객관적 평가는 PESQ(0.5~4.5)와 STOI(0~1)를 사용했으며, 기계음, babble, 교통 소음 세 종류에 대해 -5, 0, 5 dB SNR에서 평가했다. β를 최적화한 결과, 기존 JMAP·SGJMAP 대비 PESQ가 평균 0.3~0.5점 상승하고, 특히 교통 소음에서 STOI가 0.07~0.09 향상되었다. 주관적 MOS 테스트에서는 15명의 청력 정상 피험자가 각 잡음 유형별로 β·μ·ν를 자유롭게 조정한 뒤 평균 4.1점(5점 만점)을 기록했으며, 개인별 선호 파라미터가 크게 달라 사용자 맞춤형 조정의 필요성을 확인했다.
결론에서는 초가우시안 기반 SE에 트레이드오프 파라미터를 도입함으로써 잡음 억제와 음성 왜곡 사이의 균형을 사용자가 실시간으로 제어할 수 있게 되었음을 강조한다. 알고리즘은 학습이 필요 없고 연산량이 적어 스마트폰 같은 저전력 디바이스에 적합하며, HA와의 무선 연동을 통해 청각 장애인의 일상 청취 경험을 크게 향상시킬 수 있다. 향후 연구로는 다중 마이크 배열, 반향 보정, 그리고 청각 손실 정도에 따른 개인화 모델링을 제안한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기