순환 변분 오토인코더 기반 음성 향상

청음성만을 이용해 학습한 순환 변분 오토인코더와 비음성 행렬분해 기반 잡음 모델을 결합한다 테스트 시 인코더를 미세조정하여 잡음이 섞인 신호에 대한 잠재 변수의 사후분포를 추정한다 시간적 동적을 갖는 잠재 변수 모델이 기존 완전연결 구조보다 향상된 음성 복원 성능을 보인다

저자: Simon Leglaive (IETR), Xavier Alameda-Pineda (PERCEPTION), Laurent Girin (GIPSA-CRISSP

순환 변분 오토인코더 기반 음성 향상
음성 향상은 잡음이 섞인 단일 마이크 입력으로부터 청음성을 복원하는 문제이며, 최근에는 딥러닝 기반 판별 모델이 주류를 이루었다 하지만 판별 모델은 청음성과 잡음이 섞인 신호의 쌍을 필요로 하며, 대규모 라벨링이 어려운 상황에서 한계가 있다 이에 본 연구는 청음성만을 이용해 사전 학습된 생성 모델을 활용하는 반지도 학습 접근을 채택한다 생성 모델은 잠재 변수 z 를 다차원 정규분포로 가정하고, 각 시간 프레임 n 의 스펙트럼 sₙ을 복소 가우시안으로 모델링한다 디코더는 잠재 변수와 프레임 번호에 따라 스펙트럼 분산 vₛ,ₙ(z) 를 출력하는 순환 신경망으로 구현된다 잠재 변수는 시간 순서에 따라 마코프 체인을 이루며, 이전 잠재 변수와 현재·미래의 스펙트럼 정보를 모두 활용한다 이러한 구조는 기존 완전연결 VAE가 프레임 간 독립성을 강제한 것과 달리, 음성 신호의 연속성을 자연스럽게 반영한다 학습 단계에서는 변분 오토인코더 프레임워크를 적용한다 인코더는 청음성 스펙트럼을 입력으로 잠재 변수의 평균 μ_z와 분산 v_z를 추정하며, 재파라미터화 기법을 통해 샘플링 과정을 미분 가능하게 만든다 증거 하한(Lower Bound)을 최대화하는 방식으로 인코더와 디코더 파라미터를 공동 최적화한다 테스트 단계에서는 잡음이 섞인 관측 x 를 입력으로 인코더를 추가 미세조정한다 이 과정은 변분 기대-최대화(VEM) 알고리즘의 E 단계에 해당하며, 고정된 디코더와 잡음 모델 파라미터를 사용하면서 인코더 파라미터를 업데이트한다 E 단계에서 얻어진 변분 사후분포 q(z|x) 를 이용해 M 단계에서 잡음 모델의 NMF 파라미터 W_b, H_b와 프레임별 스케일 g_n을 업데이트한다 M 단계 최적화는 이터라-시라키스 다이버전스 기반의 목적 함수를 최소화하는 형태이며, 기존 연구에서 제안된 곱셈 업데이트 규칙을 그대로 적용한다 최종 음성 복원은 Wiener 필터 형태의 기대값 계산으로 수행되며, 잠재 변수 샘플에 대한 평균을 취해 스케일링된 스펙트럼을 얻는다 실험에서는 공개된 음성 데이터셋에 다양한 잡음 유형과 SNR 조건을 적용해 비교 평가하였다 비교 대상은 동일한 데이터와 NMF 잡음 모델을 사용한 기존 완전연결 VAE 기반 방법이며, 제안된 순환 VAE는 PESQ, STOI, SDR 등 여러 객관 지표에서 일관된 개선을 보였다 특히 낮은 SNR 구간에서 시간적 동적을 활용한 잠재 변수 모델이 잡음 억제와 음성 왜곡 최소화에 크게 기여함을 확인하였다 또한, 점추정 방식과 변분 사후분포를 이용한 방식의 성능 차이를 분석했으며, 변분 접근이 더 안정적인 복원 품질을 제공한다는 결론을 도출했다 결론적으로, 순환 변분 오토인코더와 비음성 행렬분해 잡음 모델의 결합은 청음성만으로 학습된 생성 모델을 실시간 음성 향상에 효과적으로 활용할 수 있음을 입증한다

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기