다중모달 데이터 증강을 활용한 종단형 음성인식 개선
본 논문은 음성 입력 외에 텍스트 기반의 심볼 입력을 동시에 학습할 수 있는 두 개의 인코더를 도입한 MMDA(Multi‑Modal Data Augmentation) 모델을 제안한다. 문자, 음소, 음소‑반복(길이 모사) 세 종류의 합성 입력을 텍스트 코퍼스로부터 생성해 대규모 언어 데이터와 소규모 음성 데이터를 효과적으로 결합한다. WSJ, HUB4 스페인어, VoxForge 이탈리아어 실험에서 특히 음소‑반복 입력이 가장 큰 WER 감소(최…
저자: Adithya Renduchintala, Shuoyang Ding, Matthew Wiesner
본 논문은 End‑to‑End 자동 음성 인식(ASR) 시스템의 데이터 부족 문제를 해결하기 위해, 텍스트 기반의 합성 입력을 활용하는 다중모달 데이터 증강(MMDA) 프레임워크를 제안한다. 전통적인 ASR 모델은 음성 신호만을 입력으로 받아 문자 혹은 단어 시퀀스를 출력한다. 그러나 대규모 텍스트 코퍼스는 풍부한 언어 정보를 제공하지만, 직접적인 음성 입력으로 변환하기는 어렵다. 이를 극복하고자 저자들은 두 개의 독립 인코더를 설계하였다. 하나는 일반적인 음성 프레임을 처리하는 Acoustic Encoder이며, 다른 하나는 텍스트에서 추출한 심볼 시퀀스를 처리하는 Augmenting Encoder이다. 두 인코더는 각각의 파라미터를 학습하지만, 이후 단계인 Attention 모듈과 Decoder는 완전히 공유한다. 따라서 합성 입력이 주어질 때도 동일한 디코더가 작동해 출력 시퀀스를 생성한다.
합성 입력 생성은 세 가지 방식으로 진행된다. 첫 번째는 Charstream으로, 원문 텍스트를 문자 단위 시퀀스로 변환하되 단어 경계 정보를 제거한다. 두 번째는 Phonestream으로, 사전(CMUdict)과 G2P 모델을 이용해 각 단어를 음소 시퀀스로 변환한다. 세 번째이자 가장 혁신적인 방식은 Rep‑Phonestream이다. 여기서는 각 음소의 평균 지속시간을 통계적으로 추정하고, 해당 지속시간에 비례해 음소를 반복함으로써 실제 음성 신호의 시간적 특성을 모방한다. 예를 들어 “John”이라는 단어는 JH‑AA‑N 음소로 변환된 뒤, 각 음소가 평균 프레임 수에 따라 1~N 번 반복된다. 이렇게 하면 합성 입력이 음성 입력과 형태적으로 더 유사해져 인코더‑디코더 간 정합성이 향상된다.
학습 과정은 다중 작업(Multi‑Task) 형태로 설계되었다. 음성 데이터 배치에서는 Acoustic Encoder와 공유된 디코더를 사용해 전통적인 ASR 손실인 log P(y|X) 를 최적화한다. 반면 합성 텍스트 배치에서는 Augmenting Encoder와 동일 디코더를 사용해 log P(s|z) 손실을 최적화한다. 두 손실은 배치 단위로 교대로 적용되며, 이는 대규모 텍스트 코퍼스를 활용하면서도 음성‑텍스트 정합성을 유지한다는 장점을 제공한다.
실험은 세 가지 데이터셋을 대상으로 수행되었다. 영어 WSJ(80시간)에서는 약 1.5 M 문장의 텍스트를 이용해 합성 입력을 생성하였다. Charstream과 Phonestream은 별다른 성능 향상을 보이지 못했지만, Rep‑Phonestream은 베이스라인 대비 CER를 0.3%p, WER를 2.0%p 절감하였다. 외부 RNN‑LM을 결합하면 추가로 CER 0.3%p, WER 1.2%p 정도 개선되었다. 동일 모델을 스페인어 HUB4(30시간)와 이탈리아어 VoxForge(16시간)에도 적용했으며, 두 언어 모두 Rep‑Phonestream이 WER를 약 2~3%p 감소시키는 효과를 보였다. 다만 언어별 음소‑길이 매핑이 부정확했을 가능성으로 영어에 비해 상대적 향상이 다소 낮았다.
본 연구의 주요 기여는 다음과 같다. 첫째, 텍스트만으로도 효과적인 합성 입력을 생성해 대규모 언어 데이터와 소규모 음성 데이터를 자연스럽게 결합하였다. 둘째, 두 인코더 구조와 공유 디코더 설계로 기존 디코딩 파이프라인을 그대로 유지하면서도 학습 단계에서만 추가 모달리티를 필요로 하여 실시간 시스템에 적용이 용이하다. 셋째, 음소‑반복을 통한 시간적 모사 방식이 합성 입력의 품질을 크게 향상시켜 성능 개선에 결정적인 역할을 함을 실험적으로 입증하였다.
한계점으로는 합성 입력의 품질에 크게 의존한다는 점이다. 특히 Rep‑Phonestream은 음소별 평균 지속시간 통계가 정확해야 효과가 크며, 언어마다 이러한 통계가 다를 수 있다. 또한 현재는 G2P 변환에 의존하고 있어, 사전이 부족한 저자원 언어에서는 적용이 어려울 수 있다. 향후 연구에서는 (1) 자동화된 음소‑시간 매핑 방법 개발, (2) 서브‑음소, 억양, 강세 등 보다 풍부한 심볼을 포함한 합성 입력 설계, (3) 다중 언어 및 저자원 언어에 대한 확장성 검증을 제안한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기