강화학습 기반 음성 향상으로 인식 정확도 크게 향상

본 논문은 전통적인 MSE 기반 딥러닝 음성 향상 모델이 자동 음성 인식(ASR) 성능을 최적화하지 못한다는 문제를 인식하고, 강화학습(RL)을 이용해 인식 오류를 직접 최소화하도록 SE 모델을 학습시킨다. Mandarin Chinese 방송 뉴스 코퍼스(MATBN)와 베이비크라이 잡음 환경에서 실험한 결과, 0 dB와 5 dB SNR 조건에서 각각 19.23%와 12.40%의 문자 오류율(CER) 감소를 달성하였다.

저자: Yih-Liang Shen, Chao-Yuan Huang, Syu-Siang Wang

강화학습 기반 음성 향상으로 인식 정확도 크게 향상
본 논문은 “강화학습 기반 음성 향상으로 인식 정확도 크게 향상”이라는 제목 아래, 전통적인 평균제곱오차(MSE) 최적화 방식이 자동 음성 인식(ASR) 시스템의 실제 성능 향상에 한계가 있음을 지적한다. 기존 DNN 기반 음성 향상(SE) 모델은 깨끗한 음성 신호와의 차이를 최소화하도록 학습되지만, 이 차이가 반드시 인식 오류 감소와 직결되지 않는다. 특히 잡음이 심한 실환경에서는 스펙트럼 왜곡이 남아 ASR의 음향 모델과 언어 모델에 부정적인 영향을 미친다. 따라서 인식 오류 자체를 목표 함수로 삼는 새로운 학습 전략이 필요하다. 논문은 이러한 요구를 충족시키기 위해 강화학습(RL) 알고리즘을 도입한다. RL은 에이전트가 환경과 상호작용하며 누적 보상을 최대화하도록 정책을 학습하는 프레임워크이다. 여기서 환경은 고정된 상용 ASR 시스템이며, 에이전트는 청크 단위로 적용할 이진 마스크(IBM)를 선택하는 역할을 한다. 비미분 가능한 ASR 파이프라인을 그대로 사용하면서도, 인식 결과(문자 오류율, CER)를 보상으로 활용해 SE 모델을 직접 최적화한다. 시스템은 크게 세 개의 모듈로 구성된다. 1) **IBM 클러스터링 모듈**: 훈련 데이터에서 추출한 IBM 행렬을 K‑means(32클러스터)로 군집화한다. 각 클러스터는 대표 이진 마스크 𝑔̂ₐ를 갖고, 전체 집합을 𝔾라 표기한다. 이진 마스크는 스펙트럼의 각 시간‑주파수 셀에 대해 ‘음성 존재(1)’ 혹은 ‘노이즈 존재(0)’를 나타낸다. 2) **액션 추정 모듈**: 입력 청크 ˜Y_c(시간‑주파수 스펙트럼)와 주변 컨텍스트(F=5) 정보를 DNN에 입력한다. 사전 학습된 DNN은 출력층에 소프트맥스 함수를 적용해 32차원 액션 벡터 a″_c를 생성한다. 가장 큰 값을 가진 인덱스 a_c가 현재 청크에 적용할 마스크 클러스터를 의미한다. 초기 사전 학습 단계에서는 청크와 대응하는 IBM을 레이블로 사용해 네트워크를 학습한다. 3) **목표 액션 결정 모듈**: a_c를 기반으로 𝔾에서 해당 클러스터의 마스크 ĝ_{a_c}를 선택하고, 이를 청크에 적용해 향상된 스펙트럼 ˆS′_c를 만든다. 전체 청크를 처리한 뒤 시간 도메인 신호로 복원하고, 고정된 Kaldi 기반 ASR 엔진에 입력한다. ASR는 원본 잡음 음성에 대한 오류율 z_y와 향상된 음성에 대한 오류율 z_s′를 반환한다. 보상은 두 단계로 계산된다. - **전역 보상 R**: R = tanh{α (z_y – z_s′)} 로 정의한다. α는 스케일링 파라미터(논문에서는 10)이며, R>0이면 향상된 음성이 인식 성능을 개선했음을 의미한다. - **청크 수준 보상 r_c**: 청크별 정규화 제곱오차 ˜E_c = Ê_c / max(Ê) 로 구하고, R의 부호에 따라 r_c = (1–˜E_c)·R (R>0) 혹은 ˜E_c·R (R≤0) 로 설정한다. 이는 잘못된 마스크 선택에 대해 더 큰 페널티를 부여한다. 보상에 따라 액션 벡터를 업데이트한다. R>0이면 선택된 액션 a_c를 강화하고, R<0이면 선택된 IBM 클러스터 â_B_c를 감소시킨다. 구체적인 업데이트 식은 논문의 (14), (15) 식에 명시되어 있다. 이렇게 업데이트된 파라미터는 다시 DNN에 적용되어 다음 에피소드에서 더 나은 마스크 선택을 학습한다. 실험은 Mandarin Chinese 방송 뉴스 코퍼스(MATBN)와 베이비크라이 잡음을 사용한다. 훈련용 460문장, 테스트용 30문장을 각각 5 dB와 0 dB SNR로 합성하였다. ASR 모델은 6층 DNN-HMM 구조이며, 40차원 필터뱅크 특징을 사용한다. 두 가지 RL‑SE 모델(RLSE1: p=1, RLSE2: p=2)과 비교 대상으로 ‘Noisy’(잡음 그대로)와 ‘1‑Nearest‑Neighbor SE(1nnSE)’를 설정하였다. 결과는 다음과 같다. 청크 길이 p=2를 사용한 RLSE2가 가장 큰 성능 향상을 보였으며, 5 dB SNR에서 CER 56.14%→49.18% (12.40% 감소), 0 dB SNR에서 81.40%→65.75% (19.23% 감소)를 기록했다. 1nnSE는 전혀 개선되지 않아 단순 클러스터 매칭만으로는 최적 마스크를 찾기 어렵다는 점을 확인했다. 본 연구는 (1) 비미분 가능한 복합 ASR 시스템을 그대로 활용하면서도 SE 모델을 직접 최적화하는 RL 기반 프레임워크를 제시, (2) IBM 클러스터와 청크‑보상 메커니즘을 결합해 데이터‑드리븐 마스크 선택을 학습, (3) 실제 잡음과 상용 ASR 엔진을 사용해 실용적인 CER 감소를 입증한 점에서 의의가 크다. 한계점으로는 이진 마스크에 의존함으로써 마스크 표현력이 제한될 수 있고, 보상 함수의 파라미터(α, tanh 등)가 환경에 민감하게 작동할 가능성이 있다. 향후 연구에서는 연속형 마스크(IRM)와 음성 품질 지표(PESQ, STOI)와 인식 오류를 동시에 고려하는 복합 보상 설계, 다국어·다잡음 상황에서의 일반화 검증 등을 제안한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기