음성과 표정을 동시에 변환하는 자연스러운 AV 스피커 변환 기술

본 논문은 화자 A의 음성 및 얼굴 표정을 화자 B의 특성으로 동시에 변환하는 Audiovisual Speaker Conversion(A VSC) 시스템을 제안한다. 3개의 신경망(변환 네트워크, WaveNet 기반 파형 생성기, 이미지 재구성 네트워크)을 이용해 음향·시각 정보를 융합·변환하고, 감정이 포함된 데이터셋을 통해 기존의 음성·얼굴을 별도 변환하는 방식보다 자연스러움과 동기화 정확도가 크게 향상됨을 실험적으로 입증한다.

저자: Fuming Fang, Xin Wang, Junichi Yamagishi

음성과 표정을 동시에 변환하는 자연스러운 AV 스피커 변환 기술
본 논문은 화자 A의 음성 및 얼굴 표정을 화자 B의 특성으로 동시에 변환하는 Audiovisual Speaker Conversion(A VSC) 시스템을 제안한다. 기존 연구에서는 음성 변환(Vocal Conversion)과 얼굴 변환(Face Transformation)을 별도로 수행했으며, 이 경우 변환 오류, 지연, 비동기성 등으로 인해 최종 결과물의 자연스러움이 저하되는 문제가 있었다. 이러한 문제를 해결하고자 저자들은 음향 특징과 시각 특징을 하나의 네트워크에서 융합·변환함으로써 두 모달리티가 항상 연관된 상태를 유지하도록 설계하였다. ### 1. 관련 연구 AVSC는 크게 네 가지 분야와 연관된다. (1) Audiovisual Voice Conversion: 음성 및 입술 움직임을 동시에 학습해 노이즈 환경에서 성능을 향상시킨 연구, (2) Audiovisual Speech Enhancement: 입술 영상과 잡음이 섞인 스펙트럼을 결합해 깨끗한 음성을 복원하는 연구, (3) Lip‑to‑Speech Synthesis: 입술 영상으로부터 음성을 생성하는 모델, (4) Speech‑to‑Lip Synthesis: 음성으로부터 입술 키포인트를 생성하고 이를 이미지로 렌더링하는 연구. 기존 방법들은 주로 입술 움직임에 초점을 맞추었으며, 전체 얼굴 표정이나 감정까지 포괄하는 변환은 다루지 않았다. 본 연구는 이러한 한계를 넘어, 얼굴 전체의 표정과 감정을 포함한 시각 정보를 변환 대상에 포함시킨다. ### 2. 제안 방법 A VSC는 세 개의 주요 신경망으로 구성된다. 1. **Audiovisual Transformation Network** - 입력: 멜 스펙트럼(80 차원) + VGG‑19에서 추출한 고수준 시각 특징(4096 차원) + OpenPose 기반 얼굴 키포인트(140 차원) → 총 4236 차원 시각 특징. - 구조: 1‑D ConvNet 기반 5개의 서브네트워크(음향 다운샘플링, 시각 차원 축소, 융합, 음향 업샘플링, 시각 변환)와 residual 연결을 포함한다. stride와 kernel size(5)를 조절해 시간 축에서의 샘플링 레이트 차이를 맞춘다. - 출력: 목표 화자 B의 변환된 멜 스펙트럼과 변환된 시각 특징(키포인트+VGG). 2. **WaveNet 기반 파형 생성기** - 변환된 멜 스펙트럼과 시각 특징을 condition으로 받아, autoregressive 방식으로 샘플 단위 파형을 생성한다. 기존 WaveNet 구조에 condition 모듈을 추가해 시각 정보를 활용함으로써 음성·입술 동기화를 강화한다. 3. **Image Reconstruction Network** - 변환된 시각 특징과 변환된 음향 특징을 결합해 4096 차원의 융합 벡터를 만든 뒤, 이를 64×64×1 텐서로 reshape하고 7개의 Conv/Deconv 레이어를 거쳐 256×256×3 RGB 이미지를 생성한다. - 학습은 LSGAN(Least Squares GAN) 프레임워크를 사용해 사실적인 얼굴 이미지를 만들며, L1 손실에 10배 가중치를 부여해 픽셀 수준의 정확성을 유지한다. ### 3. 실험 설계 - **데이터셋**: 두 명의 일본인 여성 배우가 7가지 감정(중립, 보통·강한 행복, 보통·강한 슬픔, 보통·강한 분노)을 표현한 700문장(각 100문장)으로 구성된 감정 AV 데이터베이스. 오디오: 96 kHz, 24‑bit, 비디오: 60 fps, 1080p. - **전처리**: 오디오를 48 kHz, 16‑bit로 다운샘플링 후 멜 스펙트럼 추출, 비디오는 25 fps, 1080×1080으로 리사이즈, VGG‑19 입력용 224×224, 키포인트 추출용 256×256. - **학습**: 변환 네트워크(learning rate = 1e‑4, batch = 64, epochs = 600), WaveNet(사전 학습 모델 기반, 199 epoch fine‑tune), 이미지 재구성(30 epoch, generator = 1e‑3, discriminator = 1e‑5). - **Baseline**: 제안 시스템에서 음향·시각 변환 중 하나만 남기고 나머지를 제거한 구조(즉, 별도 변환 후 각각 WaveNet·이미지 재구성에 입력)로 비교. ### 4. 평가 - **객관적**: Canonical Correlation Analysis를 이용해 변환 후 멜 스펙트럼과 입술 키포인트 간 상관계수 r을 측정. 제안 시스템은 r > 0.8 구간이 크게 증가했으며, baseline 대비 통계적으로 유의미한 차이를 보였다. - **주관적**: MOS(1‑5) 설문을 통해 (1) 음성만, (2) 영상만, (3) 음·영상 동시 3가지 조건에서 자연스러움·품질·동기화 정확성을 평가. 또한 화자 유사도 선호 테스트를 진행. 결과는 제안 시스템이 모든 항목에서 평균 0.4~0.6점 정도 높은 점수를 획득했으며, 특히 음·영상 동시 평가에서 동기화가 크게 개선된 것이 확인되었다. ### 5. 논의 및 한계 제안된 A VSC는 음향과 시각을 공동 변환함으로써 두 모달리티 간의 일관성을 확보하고, 결과물의 자연스러움과 화자 유사도를 동시에 향상시켰다. 그러나 현재는 두 화자 간 1:1 변환만을 다루며, 다중 화자·다중 언어 상황에 대한 일반화 성능은 검증되지 않았다. 또한 WaveNet 기반 파형 생성은 연산 비용이 높아 실시간 적용에 제한이 있다. ### 6. 향후 연구 방향 - **다중 화자·다중 언어 확장**: 변환 네트워크를 다중 화자용으로 학습시키고, 언어 간 특징 차이를 고려한 도메인 적응 기법 도입. - **경량화 모델**: WaveNet 대신 Diffusion 기반 파형 모델이나 멀티스케일 ConvNet을 활용해 실시간성을 확보. - **감정·표정 세밀 제어**: 감정 라벨을 조건으로 추가해 원하는 감정·표정을 자유롭게 조절할 수 있는 인터페이스 개발. 결론적으로, 본 논문은 음성·표정 동시 변환이라는 새로운 패러다임을 제시하고, 실험을 통해 기존 별도 변환 방식보다 뛰어난 성능을 입증함으로써 향후 가상 아바타, 게임, 영화 제작 등 다양한 멀티모달 콘텐츠 생성 분야에 큰 영향을 미칠 것으로 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기