단일 시퀀스투시퀀스 모델로 구현한 다방언 영어 음성 인식

본 논문은 다방언 영어 음성 인식 문제를 해결하기 위해, 기존의 복잡한 파이프라인(음향 모델, 발음 모델, 언어 모델)을 하나의 시퀀스‑투‑시퀀스(LAS) 네트워크로 통합하는 방안을 제시한다. 서론에서는 방언이 음성, 어휘, 표기 등 여러 수준에서 차이를 보이며, 한 방언에 최적화된 ASR 시스템이 다른 방언에 대해 성능 저하를 겪는 현실을 설명한다. 기존 다언어·다방언 모델들은 보통 공통 음소 집합을 정의하고, 이후 언어·방언 별 적응을 수행했지만, 여전히 방언마다 별도의 PM·LM이 필요해 복잡성이 남아 있었다. 이에 저자들은 LAS 모델이 AM·PM·LM을 하나의 신경망으로 동시에 학습한다는 점에 주목한다. LAS는 5층의 1024차원 단방향 LSTM 인코더와 2층의 1024차원 LSTM 디코더, 그리고 additive attention으로 구성된다. 출력은 75개의 grapheme(문자) 집합이며, 와 토큰으로 시작·종료를 표시한다. 실험 데이터는 약 40,000시간(35M 발화) 규모의 구글 보이스 서치 음성으로, 미국, 인도, 영국, 남아프리카, 호주, 나이지리아·가나, 케냐 등 7개 방언을 포함한다. 각 방언별 훈련량은 크게 차이가 나며, 특히 인도·남아프리카·케냐는 상대적으로 적은 데이터를 보유한다. 첫 번째 실험에서는 모든 방언 데이터를 단순히 풀링하여 하나의 LAS 모델(S1)을 학습하고, 각 방언별로 동일 구조를 미세조정한 모델(S2)과 비교한다. 결과는 S1이 전반적으로 허용 가능한 수준이지만, S2가 평균 0.9~2.2% 절대 WER에서 우수함을 보여준다. 이는 방언 특성을 반영하지 않은 단일 모델이 방언별 최적화에 한계가 있음을 의미한다. 다음으로 방언 정보를 모델에 명시적으로 주입하는 두 가지 접근법을 제안한다. 첫 번째는 출력 시퀀스에 방언 토큰을 삽입하는 방식이다. 기존 연구는 토큰을 시퀀스 앞에 두었지만, 저자들은 토큰을 뒤에 배치(S4)함으로써 grapheme 예측이 방언 분류 오류에 의존하지 않게 설계했다. 실험 결과, S4는 대부분의 방언에서 S2를 능가했으며, 특히 데이터가 적은 영국·남아프리카·호주·나이지리아·케냐에서 큰 개선을 보였다. 반면 토큰을 앞에 삽입한 S3는 방언 분류 오류가 전이되어 성능이 다소 저하되었다. 두 번째 접근법은 방언 정보를 1‑hot 혹은 학습된 임베딩 벡터 형태로 모델 내부에 직접 전달하는 것이다. 이 벡터는 인코더와 디코더 각각에 추가될 수 있다. 인코더에 주입한 S5는 음향 변이를 보정해 데이터가 적은 방언에서 WER 감소 효과가 뚜렷했으며, 디코더에 주입한 S6는 언어 모델 차이를 보정해 전반적인 성능을 끌어올렸다. 인코더와 디코더 모두에 주입한 S7(특히 1‑hot 버전)은 평균 WER이 9.1% (US)에서 15.7% (IN) 등 모든 방언에서 S2보다 낮았다. 1‑hot과 임베딩 사이에서는 차이가 미미했으며, 이는 8차원의 저차원 표현이 충분히 방언 구분을 제공했기 때문이다. 또한, 방언 벡터를 잘못된 방언에 적용했을 때의 WER 변화를 시각화한 실험(Fig.1)에서는 인코더에 잘못된 벡터를 넣으면 음향 차이에 민감하게 반응해 WER이 크게 상승하고, 디코더에 넣을 경우 언어 모델 차이에 따라 변동이 나타나는 것을 확인했다. 이는 방언 정보를 어느 레이어에 주입하느냐에 따라 보정 효과가 달라짐을 시사한다. 결론적으로, 방언 정보를 명시적으로 제공함으로써 단일 LAS 모델이 방언별 음향·언어 변이를 효과적으로 학습하고, 별도 방언별 모델을 유지할 필요 없이 모든 방언에 대해 일관된 고성능을 달성할 수 있음을 입증한다. 이 방법은 특히 데이터가 부족한 방언에 대한 성능 향상과 시스템 복잡도 감소라는 두 가지 장점을 제공한다. 향후 연구에서는 방언 임베딩 차원을 확대하거나, 다언어·다방언 환경에서의 확장성을 검증하는 것이 제안된다.

단일 시퀀스투시퀀스 모델로 구현한 다방언 영어 음성 인식

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기