음성과 표정을 동시에 변환하는 자연스러운 AV 스피커 변환 기술

본 논문은 화자 A의 음성 및 얼굴 표정을 화자 B의 특성으로 동시에 변환하는 Audiovisual Speaker Conversion(A VSC) 시스템을 제안한다. 기존 연구에서는 음성 변환(Vocal Conversion)과 얼굴 변환(Face Transformation)을 별도로 수행했으며, 이 경우 변환 오류, 지연, 비동기성 등으로 인해 최종 결과물의 자연스러움이 저하되는 문제가 있었다. 이러한 문제를 해결하고자 저자들은 음향 특징과 시각 특징을 하나의 네트워크에서 융합·변환함으로써 두 모달리티가 항상 연관된 상태를 유지하도록 설계하였다. ### 1. 관련 연구 AVSC는 크게 네 가지 분야와 연관된다. (1) Audiovisual Voice Conversion: 음성 및 입술 움직임을 동시에 학습해 노이즈 환경에서 성능을 향상시킨 연구, (2) Audiovisual Speech Enhancement: 입술 영상과 잡음이 섞인 스펙트럼을 결합해 깨끗한 음성을 복원하는 연구, (3) Lip‑to‑Speech Synthesis: 입술 영상으로부터 음성을 생성하는 모델, (4) Speech‑to‑Lip Synthesis: 음성으로부터 입술 키포인트를 생성하고 이를 이미지로 렌더링하는 연구. 기존 방법들은 주로 입술 움직임에 초점을 맞추었으며, 전체 얼굴 표정이나 감정까지 포괄하는 변환은 다루지 않았다. 본 연구는 이러한 한계를 넘어, 얼굴 전체의 표정과 감정을 포함한 시각 정보를 변환 대상에 포함시킨다. ### 2. 제안 방법 A VSC는 세 개의 주요 신경망으로 구성된다. 1. **Audiovisual Transformation Network** - 입력: 멜 스펙트럼(80 차원) + VGG‑19에서 추출한 고수준 시각 특징(4096 차원) + OpenPose 기반 얼굴 키포인트(140 차원) → 총 4236 차원 시각 특징. - 구조: 1‑D ConvNet 기반 5개의 서브네트워크(음향 다운샘플링, 시각 차원 축소, 융합, 음향 업샘플링, 시각 변환)와 residual 연결을 포함한다. stride와 kernel size(5)를 조절해 시간 축에서의 샘플링 레이트 차이를 맞춘다. - 출력: 목표 화자 B의 변환된 멜 스펙트럼과 변환된 시각 특징(키포인트+VGG). 2. **WaveNet 기반 파형 생성기** - 변환된 멜 스펙트럼과 시각 특징을 condition으로 받아, autoregressive 방식으로 샘플 단위 파형을 생성한다. 기존 WaveNet 구조에 condition 모듈을 추가해 시각 정보를 활용함으로써 음성·입술 동기화를 강화한다. 3. **Image Reconstruction Network** - 변환된 시각 특징과 변환된 음향 특징을 결합해 4096 차원의 융합 벡터를 만든 뒤, 이를 64×64×1 텐서로 reshape하고 7개의 Conv/Deconv 레이어를 거쳐 256×256×3 RGB 이미지를 생성한다. - 학습은 LSGAN(Least Squares GAN) 프레임워크를 사용해 사실적인 얼굴 이미지를 만들며, L1 손실에 10배 가중치를 부여해 픽셀 수준의 정확성을 유지한다. ### 3. 실험 설계 - **데이터셋**: 두 명의 일본인 여성 배우가 7가지 감정(중립, 보통·강한 행복, 보통·강한 슬픔, 보통·강한 분노)을 표현한 700문장(각 100문장)으로 구성된 감정 AV 데이터베이스. 오디오: 96 kHz, 24‑bit, 비디오: 60 fps, 1080p. - **전처리**: 오디오를 48 kHz, 16‑bit로 다운샘플링 후 멜 스펙트럼 추출, 비디오는 25 fps, 1080×1080으로 리사이즈, VGG‑19 입력용 224×224, 키포인트 추출용 256×256. - **학습**: 변환 네트워크(learning rate = 1e‑4, batch = 64, epochs = 600), WaveNet(사전 학습 모델 기반, 199 epoch fine‑tune), 이미지 재구성(30 epoch, generator = 1e‑3, discriminator = 1e‑5). - **Baseline**: 제안 시스템에서 음향·시각 변환 중 하나만 남기고 나머지를 제거한 구조(즉, 별도 변환 후 각각 WaveNet·이미지 재구성에 입력)로 비교. ### 4. 평가 - **객관적**: Canonical Correlation Analysis를 이용해 변환 후 멜 스펙트럼과 입술 키포인트 간 상관계수 r을 측정. 제안 시스템은 r > 0.8 구간이 크게 증가했으며, baseline 대비 통계적으로 유의미한 차이를 보였다. - **주관적**: MOS(1‑5) 설문을 통해 (1) 음성만, (2) 영상만, (3) 음·영상 동시 3가지 조건에서 자연스러움·품질·동기화 정확성을 평가. 또한 화자 유사도 선호 테스트를 진행. 결과는 제안 시스템이 모든 항목에서 평균 0.4~0.6점 정도 높은 점수를 획득했으며, 특히 음·영상 동시 평가에서 동기화가 크게 개선된 것이 확인되었다. ### 5. 논의 및 한계 제안된 A VSC는 음향과 시각을 공동 변환함으로써 두 모달리티 간의 일관성을 확보하고, 결과물의 자연스러움과 화자 유사도를 동시에 향상시켰다. 그러나 현재는 두 화자 간 1:1 변환만을 다루며, 다중 화자·다중 언어 상황에 대한 일반화 성능은 검증되지 않았다. 또한 WaveNet 기반 파형 생성은 연산 비용이 높아 실시간 적용에 제한이 있다. ### 6. 향후 연구 방향 - **다중 화자·다중 언어 확장**: 변환 네트워크를 다중 화자용으로 학습시키고, 언어 간 특징 차이를 고려한 도메인 적응 기법 도입. - **경량화 모델**: WaveNet 대신 Diffusion 기반 파형 모델이나 멀티스케일 ConvNet을 활용해 실시간성을 확보. - **감정·표정 세밀 제어**: 감정 라벨을 조건으로 추가해 원하는 감정·표정을 자유롭게 조절할 수 있는 인터페이스 개발. 결론적으로, 본 논문은 음성·표정 동시 변환이라는 새로운 패러다임을 제시하고, 실험을 통해 기존 별도 변환 방식보다 뛰어난 성능을 입증함으로써 향후 가상 아바타, 게임, 영화 제작 등 다양한 멀티모달 콘텐츠 생성 분야에 큰 영향을 미칠 것으로 기대된다.

음성과 표정을 동시에 변환하는 자연스러운 AV 스피커 변환 기술

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기