LLM 기반 텍스트와 발음 재표기 증강을 통한 합성 데이터 도메인 적응

본 논문은 도메인‑특화 자동 음성 인식(ASR) 시스템의 성능 저하 문제를 해결하기 위해, 대규모 언어 모델(LLM)을 활용한 텍스트 증강과 새로운 발음 재표기(Phonetic Respelling Augmentation, PRA) 기법을 결합한 합성 데이터 기반 도메인 적응 프레임워크를 제안한다. 1. **문제 정의 및 기존 한계** - 최신 End‑to‑End ASR 모델은 대규모 일반 음성·텍스트 코퍼스로 학습되지만, 특정 산업·법률·의료 등 도메인에 적용하면 데이터 분포 차이로 인해 WER이 급격히 상승한다. - 기존 도메인 적응 방법은 실제 도메인 음성을 수집하거나, 도메인 텍스트를 LLM으로 생성해 TTS로 합성하는 방식을 사용한다. 그러나 두 가지 주요 한계가 있다. a) 생성 텍스트가 도메인 용어를 충분히 포함하지 못해 어휘 다양성이 부족하다. b) 합성 음성은 TTS가 만든 “깨끗한” 발음만을 담고 있어, 실제 화자들의 발음 오류·동화·탈락 등을 반영하지 못한다. 2. **제안된 텍스트 증강 파이프라인** - **도메인 시드와 컨텍스트 시드**: 도메인(예: 항공 관제)과 실제 운영에서 사용되는 용어·시나리오를 시드로 제공, 이를 기반으로 LLM에게 다양한 상황을 생성하도록 프롬프트한다. - **다국어 프롬프트**: 영어, 일본어, 중국어로 동일한 시나리오를 생성하고, 번역 시 도메인 용어는 원어(영어) 그대로 유지하도록 지시한다. 이는 텍스트 다양성을 높이고, 번역 과정에서 용어 손실을 방지한다. - **패러프레이징 및 다중 LLM**: GPT‑4.1‑mini, Llama‑4‑Maverick‑17B, Qwen3‑32B 등 서로 다른 사전 학습 데이터를 가진 LLM을 순차·병렬로 활용해 1문장당 10개의 변형을 만든다. - **과잉 생성 후 필터링**: 총 60,000문장(≈50시간 음성)까지 과잉 생성한 뒤, 세 가지 목표를 동시에 최적화하는 점수 S(s)를 정의한다. - *어휘 다양성*: 새로운 고유 단어 비율 |Vocab(s)\V|/|s| - *퍼플렉시티*: GPT‑2 기반 로그 확률 평균을 지수화한 값, 높은 퍼플렉시티는 도메인 전문 용어를 포함함을 의미한다. - *도메인 용어 커버리지*: 문장 내 도메인 용어 비율 |{wi∈D}|/|s| - 각 항목을 min‑max 정규화 후 가중합(α:β:γ=6:3:1)하고, MUSS(다단계 서브셋 선택) 알고리즘을 통해 클러스터별 대표 문장을 골라 최종 후보를 선정한다. 3. **Phonetic Respelling Augmentation (PRA)** - 기존 G2P(문자‑음소 변환) 모델은 사전 기반이므로 신조어·전문 용어에 취약하고, IPA와 같은 세밀한 음소 표기는 TTS 품질을 저하시킨다. - PRA는 LLM에게 “주어진 문장을 발음 오류·동화·탈락·대체를 반영한 철자 변형으로 바꿔라”는 프롬프트를 제공한다. 예시: “Zhang Feng piloted the Boeing Seven Three Seven aircraft.” → “Jang Feng pilotid ze Bo‑in Sevem Three Sevem eer‑kraft.” - 변형된 텍스트는 TTS 입력에만 사용하고, ASR 학습 라벨은 원본 정규 텍스트를 유지한다. 따라서 모델은 다양한 발음 변이를 학습하면서도 정답은 정확히 매핑된다. - PRA는 SpecAugment와 달리 음성 합성 단계에서부터 발음 변이를 주입하므로, 스펙트럼 마스킹이 제공하지 못하는 “실제 화자 발음 오류”를 효과적으로 모사한다. 4. **실험 설정** - **데이터셋**: ATCOSIM, ATCO2(항공 관제), Court(인도 대법원), MedSyn(의약품 설명) 네 개의 영어 도메인 데이터. 각 데이터는 인간 녹음(또는 TTS)으로 구성되며, 도메인 용어 비율은 0.5%~8.4% 수준. - **합성 음성**: kokoro‑TTS 사용, 19명의 미국 영어 화자를 무작위 선택해 50시간 음성 생성. - **ASR 모델**: Whisper‑large‑v3‑turbo, 인코더 고정, 10 epoch, 배치 32, LR 1e‑5, AdamW 사용. - **비교 실험**: 기존 DAS 파이프라인, 무작위 선택, VCM(어휘 커버리지 최대화), 퍼플렉시티 최소화 등 다양한 필터링 전략과 PRA/SpecAugment 조합을 비교. 5. **주요 결과** - 텍스트 품질 측면에서 제안 파이프라인은 MA TTR, Distinct‑2, 퍼플렉시티, 평균 도메인 용어 빈도 모두 DAS보다 우수했다. 특히 VCM보다 높은 어휘 다양성과 도메인 용어 커버리지를 동시에 달성했다. - ASR 성능에서는 전체 WER가 평균 10%p 이상 감소했으며, 특히 B‑WER(도메인 용어 오류율)이 30%~50%p 크게 낮아졌다. 예를 들어 ATCO2에서 기존 DAS 54.2% → 제안 파이프라인 47.1% (전체 WER), B‑WER 73.2% → 45.1% 로 크게 개선. - PRA 적용 시 SpecAugment만 사용했을 때보다 추가 4~6%p WER 감소가 관찰되었다. 이는 발음 변이가 실제 화자 변동성을 효과적으로 반영했음을 의미한다. - 필터링 가중치와 PRA 데이터 비율을 조정한 실험에서 α:β:γ=6:3:1, PRA 60% 비율이 최적임이 확인되었다. 6. **의의 및 한계** - LLM 기반 텍스트 생성·필터링과 텍스트 단계에서의 발음 변이 주입이라는 두 축을 결합함으로써, 실제 도메인 음성을 수집하지 않아도 높은 품질의 합성 데이터로 ASR를 효과적으로 도메인 적응시킬 수 있다. - 다국어 프롬프트와 도메인 용어 보존 전략은 다언어·다문화 환경에서도 적용 가능성을 보여준다. - 한계점으로는 LLM에 의존하는 텍스트 생성 비용, 그리고 PRA가 실제 화자 발음 오류를 완벽히 모델링하지는 못한다는 점이다. 향후에는 실제 녹음된 발음 오류 데이터와 결합하거나, LLM 프롬프트를 더욱 정교화해 발음 변이의 다양성을 확대할 필요가 있다. 7. **결론** - 본 연구는 “텍스트 수준에서의 도메인 어휘 강화”와 “음성 합성 단계에서의 발음 변이 주입”이라는 두 혁신을 통해, 합성 데이터만으로도 도메인‑특화 ASR의 성능을 크게 끌어올릴 수 있음을 실증하였다. 제안된 파이프라인은 비용 효율적이며, 다양한 산업·언어에 일반화 가능한 도메인 적응 프레임워크로 활용될 전망이다.

LLM 기반 텍스트와 발음 재표기 증강을 통한 합성 데이터 도메인 적응

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기