음성 텍스처 생성과 음성 변환을 위한 역전파 활용

본 논문은 사전 학습된 CTC 기반 음성 인식 컨볼루션 네트워크를 역전파하여 입력 파형을 직접 최적화함으로써, 음성 텍스처 합성 및 화자 변환을 구현한다. 얕은 층의 활성화 통계(Gram 행렬)를 이용해 화자 특성을 추출하고, 깊은 층의 활성화를 보존해 내용 정보를 유지한다. 몇 초 수준의 목표 화자 데이터만으로도 현실적인 변환 결과를 얻을 수 있음을 실험으로 입증한다.

저자: Jan Chorowski, Ron J. Weiss, Rif A. Saurous

음성 텍스처 생성과 음성 변환을 위한 역전파 활용
본 논문은 이미지 분야에서 널리 사용되는 “스타일 전이”와 “텍스처 합성” 기법을 음성 신호에 적용하기 위해, 사전 학습된 음성 인식 네트워크를 역전파하여 입력 파형을 직접 최적화하는 방법을 제안한다. 저자들은 13계층으로 구성된 완전 컨볼루션 CTC(연결성 시계열 분류) 네트워크를 WSJ 데이터셋으로 학습시켰으며, 이 네트워크는 80개의 로그‑멜 필터뱅크와 그에 대한 1차·2차 차분(델타·델타‑델타)을 입력으로 사용한다. 네트워크는 배치 정규화와 ReLU 활성화를 포함하고, 드롭아웃을 통해 일반화 성능을 높였다. 학습된 모델은 약 7.8%의 WER을 기록했으며, 이는 음성 인식 성능은 최첨단 수준은 아니지만 파라미터가 역전파에 충분히 활용될 수 있음을 보여준다. 파형 재구성을 위해 저자들은 전통적인 음성 전처리 과정을 미분 가능하게 구현하였다. 구체적으로, 원시 파형을 25 ms 창으로 나누고 Hamming 창을 적용한 뒤, 복소수 DFT 행렬을 곱해 스펙트럼을 얻고, 부드러운 절대값 근사를 통해 magnitude를 구한다. 이후 멜 필터뱅크 행렬 곱, 로그 변환, 그리고 시간 차분 연산을 차례대로 수행한다. 이렇게 만든 전처리 파이프라인은 TensorFlow 연산으로 구현되어, 파형 자체에 대한 그래디언트를 직접 계산할 수 있다. 파형 최적화는 두 단계로 진행된다. 첫 번째 단계에서는 스펙트로그램을 목표값에 맞게 L‑BFGS로 최적화하고, Griffin‑Lim 알고리즘을 이용해 초기 파형을 복원한다. 두 번째 단계에서는 복원된 파형을 다시 L‑BFGS로 미세 조정하여 손실을 최소화한다. 네트워크 내부 활성화의 통계적 특성을 활용한 텍스처 합성은 이미지 분야에서 Gram 행렬을 이용한 방법을 차용한다. 음성에서는 시간 축이 통계적으로 평균화될 수 있지만, 주파수 축은 비정상성을 유지한다는 점을 고려해, 활성화 텐서 C⁽ⁿ⁾(T × F × D)를 시간에 대해 평균화한 Gram 텐서 G⁽ⁿ⁾(F × F × D × D)를 정의한다. 얕은 층(C0‑C5)의 Gram 텐서는 화자 고유의 주파수 구조(피치, 포먼트 등)를 강하게 반영한다. 이를 검증하기 위해 저자들은 VCTK 데이터의 30명 화자에 대해 Gram 텐서를 추출하고, 간단한 최근접 이웃 분류기를 적용하였다. 얕은 층을 사용할 경우 화자 구분 정확도가 95%에 달했으며, 반면 원시 멜 스펙트로그램에 동일한 통계 처리를 적용하면 정확도는 5% 수준에 불과했다. 이는 학습된 네트워크가 화자 구분에 유용한 특성을 자동으로 학습한다는 것을 의미한다. 텍스처 합성 실험에서는 무작위 잡음에서 목표 화자의 Gram 텐서를 매칭하도록 최적화하였다. 얕은 층만 사용하면 생성된 소리는 일정한 피치와 조화 구조를 갖지만 시간적 변동이 거의 없으며, 깊은 층을 포함하면 단어 경계와 같은 장기적인 음소 구조가 일부 드러난다. 그러나 여전히 의미 있는 단어를 인식하기는 어렵다. 음성 변환(voice conversion)에서는 두 가지 손실을 동시에 최소화한다. 첫 번째는 콘텐츠 음성(예: 원본 텍스트)의 깊은 층(C6‑FC1) 활성화를 그대로 유지하는 내용 손실이며, 두 번째는 스타일 음성(목표 화자)의 얕은 층(C0‑C5) Gram 텐서를 매칭하는 스타일 손실이다. 각 층의 손실은 차원 수로 정규화하고, 스타일 손실에 높은 가중치(10⁵)를 부여해 화자 특성을 강하게 전이한다. 실험 결과, 변환된 음성은 원본 텍스트와 타이밍을 유지하면서도 목표 화자의 피치와 성별 차이를 명확히 반영한다. 다만, 고정된 시간 정렬 방식 때문에 화자마다 다른 말하기 속도나 억양 변화를 충분히 재현하지 못한다는 제한점이 있다. 관련 연구와 비교했을 때, 본 접근법은 (1) 미분 가능한 전처리 파이프라인을 구축해 파형 자체를 역전파 최적화 대상으로 삼은 점, (2) 네트워크 내부 활성화의 통계(Gram 텐서)를 화자 특성 추출에 활용한 점, (3) 얕은 층과 깊은 층을 조합해 스타일 전이와 내용 보존을 동시에 달성한 점에서 차별화된다. 특히, 목표 화자 데이터가 몇 초 수준으로 매우 제한적이어도 현실적인 변환이 가능하다는 점은 데이터 효율성 측면에서 큰 의미를 가진다. 향후 연구에서는 시간‑동기화 모델을 도입해 말하기 속도와 억양을 자유롭게 변형하거나, 비정형 음성(예: 감정 표현)에도 적용할 수 있는 확장성을 탐구할 필요가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기