LLM 기반 보상으로 강화학습하는 차세대 오디오‑비주얼 음성 향상

본 논문은 기존 SI‑SNR·MSE와 같은 수치 목표가 청감 품질과 일치하지 않는 문제를 해결하고자, 사전 학습된 AVSE 모델을 PPO 기반 강화학습으로 미세조정한다. 보상은 음성 전용 대형 언어 모델(SALMONN)이 생성한 자연어 평가를 감성 분석(BERT)으로 1‑5 점수로 변환한 뒤, 기존 베이스 모델 대비 상대적 향상으로 정의한다. 실험 결과, 제안 방법은 PESQ·STOI·NISQA 등 객관 지표와 주관 청취 테스트 모두에서 감독 …

저자: Chih-Ning Chen, Jen-Cheng Hou, Hsin-Min Wang

LLM 기반 보상으로 강화학습하는 차세대 오디오‑비주얼 음성 향상
본 논문은 오디오‑비주얼 음성 향상(AVSE) 시스템의 평가와 최적화 사이에 존재하는 불일치를 해소하고자, 대형 언어 모델(LLM)을 활용한 강화학습 프레임워크를 제안한다. 기존 AVSE 연구는 주로 SI‑SNR, MSE와 같은 신호 기반 손실 함수를 최소화하는 방식으로 모델을 학습했으며, 이러한 손실은 객관적인 수치 향상에는 기여하지만 인간 청취자가 실제로 느끼는 명료도, 잡음 감소, 왜곡 최소화와는 약한 상관관계를 가진다. 이러한 문제점을 인식한 연구진은 두 단계 학습 파이프라인을 설계하였다. 첫 번째 단계는 공개된 AVSEC‑4 베이스 모델을 SI‑SNR 목표로 사전 학습하는 전통적인 감독 학습이다. 이 모델은 인코더‑세퍼레이터‑디코더 구조를 갖추고 있으며, 오디오와 비디오 입력을 각각 처리한 뒤, TCN 기반 세퍼레이터가 마스크를 예측하고 디코더가 이를 적용해 향상된 음성을 복원한다. 두 번째 단계에서는 강화학습을 적용한다. 정책 π_RL은 기존 마스크 출력에 가우시안 노이즈(N(0,σ²))를 추가해 확률적 행동을 만든다. 이때 보상 함수 r_ϕ는 두 부분으로 구성된다. 첫 번째는 SALMONN이라는 음성 전용 LLM이 향상된 음성을 입력받아 자연어 형태의 품질 평가를 생성하는 과정이다. 예를 들어 “speech is clear but still has slight background noise”와 같은 문장이 생성된다. 두 번째는 이 텍스트를 사전 학습된 감성 분석 모델(BERT)으로 전달해 1‑5 점수로 변환한다. 최종 보상 R은 현재 정책의 점수와 베이스 정책의 점수 차이로 정의되어, 상대적 향상을 직접 반영한다. 보상 설계는 KL‑다이버전스 제약을 포함해 정책이 베이스 모델에서 급격히 벗어나지 않도록 안정성을 확보한다. PPO 클립 손실에 SI‑SNR 손실을 가중치 γ와 함께 결합함으로써, 전통적인 신호 기반 목표와 새로운 언어 기반 목표가 공동 최적화된다. 실험은 4th COG‑MHEAR AVSE Challenge(AVSEC‑4) 데이터셋을 사용했다. 훈련 세트는 34,524개의 장면, 검증 세트는 3,365개, 테스트 세트는 3,180개로 구성되며, 다양한 화자, 잡음, 실내 방향성 임펄스 응답을 포함한다. 두 단계 학습 후, 제안된 LR‑AVSE는 PESQ 1.57, STOI 0.58, NISQA‑예측 MOS 1.29 등에서 베이스 모델(1.45, 0.48, 0.99)과 DNS‑MOS 기반 RL(1.54, 0.57, 1.15)을 모두 능가했다. VQscore와 SpeechBERTScore에서도 최고 점수를 기록하였다. 주관적 평가를 위해 21명의 청취자를 대상으로 A/B 선호 테스트를 수행했으며, LR‑AVSE는 베이스 모델 대비 96.7%의 선호도를, DNS‑MOS 기반 RL 대비 67.6%의 선호도를 얻었다. 이는 LLM‑기반 보상이 객관적 지표뿐 아니라 실제 청취자 경험과도 높은 일치성을 보임을 의미한다. 보상의 해석 가능성도 검증되었다. Figure 3에서 SALMONN이 생성한 텍스트와 감성 점수는 PESQ·STOI 상승과 일관된 변화를 보였으며, “clear and easy to understand”와 같은 구체적 표현이 점수 상승을 이끌었다. 이는 모델이 어떤 품질 요소를 개선했는지를 직관적으로 파악할 수 있게 해준다. 논문은 현재 사용된 SALMONN이 어휘와 표현이 제한적이며, 고정된 문장 패턴이 미세한 품질 차이를 포착하는 데 한계가 있음을 인정한다. 향후 연구에서는 더 강력한 LLM(예: GPT‑4, LLaMA‑2)와 정교한 프롬프트 엔지니어링을 도입해 보상의 풍부함과 민감도를 높이는 방안을 제시한다. 또한, 감성 분석 대신 텍스트‑점수 매핑을 직접 학습하는 엔드‑투‑엔드 보상 모델도 탐색할 가치가 있다. 결론적으로, 이 연구는 “언어 기반 인간 피드백”을 강화학습 보상에 도입함으로써, AVSE 모델이 인간 청감에 더 가깝게 최적화될 수 있음을 실증적으로 보여준다. 이는 음성 처리뿐 아니라 멀티모달 학습 전반에 걸쳐 LLM‑기반 보상이 새로운 평가·학습 패러다임을 제공할 수 있음을 시사한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기