영상 기반 음성 재구성 GAN으로 직접 오디오 합성

본 논문은 무음 영상에서 직접 원시 파형을 생성하는 엔드‑투‑엔드 모델을 제안한다. 3D‑CNN 기반 시각 인코더와 GRU로 구성된 컨텐츠 인코더, 그리고 오디오 프레임 디코더를 결합한 생성기를 GAN 구조에 통합하고, 사전 학습된 음성 인코더를 이용한 퍼셉추얼 손실을 추가한다. GRID 데이터셋을 이용해 화자 종속·독립 두 환경에서 평가했으며, 음질·인식률·AV 동기화 측면에서 기존 방법을 능가한다.

저자: Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis

**1. 서론 및 배경** 음성은 청각과 시각 두 모달리티가 결합된 커뮤니케이션 수단이며, 소음이 심한 환경이나 청각 장애인에게는 시각 정보가 핵심 역할을 한다. 기존 연구는 VSR(Visual Speech Recognition) 기반 텍스트 추출 후 TTS(Text‑to‑Speech)로 변환하는 2단계 파이프라인을 주로 사용했지만, 텍스트 라벨링 비용, 단어 단위의 지연, 감정·억양 손실 등의 한계가 있었다. 따라서 영상만으로 직접 파형을 생성하는 접근이 최근 주목받고 있다. **2. 관련 연구** LeCornu와 Miller의 GMM/DNN 기반 방법, 3D‑CNN을 이용한 LSP 예측, Optical Flow 결합, 다중 뷰 입력, CNN‑RNN 기반 스펙트로그램 변환 등 다양한 시도들이 있었지만, 대부분 중간 특징(스펙트로그램, LSP 등)을 거쳐야 했고, 화자 독립성이나 자연스러운 음성 생성 측면에서 제한적이었다. **3. 제안 모델 구조** 제안 시스템은 세 개의 서브 네트워크로 구성된다. - **Generator**: 시각 특징 인코더(5‑layer 3D‑CNN) → GRU 기반 컨텐츠 인코더 → 오디오 프레임 디코더. 시각 인코더는 N=7 프레임을 입력받아 z_s를 추출하고, GRU는 시간적 연속성을 학습해 z_c를 만든다. 디코더는 z_c를 받아 50 kHz 샘플을 직접 출력한다. - **Critic**: 3D‑CNN 형태의 판별기로, 실제와 생성된 1 초 길이 오디오 클립을 무작위 샘플링하여 Wasserstein 거리와 Gradient Penalty를 이용해 학습한다. 배치 정규화를 배제해 샘플 간 상관을 차단한다. - **Speech Encoder**: 사전 학습된 음성 인코더(

영상 기반 음성 재구성 GAN으로 직접 오디오 합성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기