정확도 향상을 위한 정책학습 기반 엔드투엔드 음성인식 개선

본 논문은 엔드투엔드 음성인식 모델에서 널리 사용되는 Connectionist Temporal Classification(CTC) 기반 최대우도 학습이 최종 평가 지표인 Word Error Rate(WER)와 불일치한다는 문제를 다룬다. CTC는 정답 시퀀스 전체를 정확히 맞출 확률만을 최대화하고, 오류가 발생한 경우를 모두 동일하게 취급한다. 따라서 실제 사용 시 중요한 편집 거리 기반 지표와는 근본적인 차이가 발생한다. 이를 해결하기 위해 저자들은 모델을 확률 정책 Pθ(y|x) 로 보고, 강화학습의 정책경사 기법을 도입한다. 보상 함수 r(y)는 1‑WER(또는 1‑max(1,WER)) 형태로 정의되어, 모델이 생성한 전사와 정답 사이의 편집 거리를 직접 최소화하도록 설계되었다. 정책경사의 대표적인 구현인 REINFORCE는 고분산 문제를 안고 있지만, Self‑Critical Sequence Training(SCST) 방식을 적용하면 베이스라인을 현재 모델의 greedy 출력 ȳ 로 설정함으로써 분산을 크게 감소시킬 수 있다. 구체적으로 정책경사 손실은 L_scst = −(r(y_s)−r(ȳ)) log Pθ(y_s|x) 로 계산되며, 여기서 y_s는 모델이 샘플링한 전사이다. 이 손실을 CTC 로그우도 손실과 가중치 λ 로 선형 결합한 다목적 손실 L(θ)=−log Pθ(y|x)+λ L_scst 를 사용한다. λ는 학습 초기에 0.1로 작게 두어 CTC가 안정적인 지도 신호를 제공하게 하고, 모델이 어느 정도 수렴하면 1로 증가시켜 정책학습의 비중을 높인다. 이렇게 하면 초기 단계에서는 CTC가 빠른 수렴을 돕고, 후반부에서는 실제 WER를 직접 최소화하는 정책학습이 미세 조정을 수행한다. 모델 구조는 Deep Speech 2(DS2)를 기반으로 하며, 전처리 단계에 2‑D depth‑wise separable convolution을 사용한다. 이는 채널별 convolution 후 1×1 pointwise convolution을 적용해 연산 효율성을 높인다. 총 6개의 convolution 레이어(첫 레이어는 큰 필터, 이후 5개의 residual block)와 4개의 bidirectional GRU(각 방향 1024 유닛) 그리고 2개의 fully‑connected 레이어가 이어진다. 모든 레이어에 배치 정규화와 dropout을 적용하고, 순환 레이어에는 Gal‑Ghahramani 방식 dropout을 사용한다. 데이터 전처리는 20 ms 윈도우, 10 ms 스트라이드의 스펙트로그램을 만든 뒤 평균·분산 정규화를 수행한다. 추가적으로 템포, 피치, 볼륨, 잡음 등 다양한 음성 변형을 통해 데이터 증강을 수행한다. 실험은 Wall Street Journal(WSJ)와 LibriSpeech 두 데이터셋에서 진행되었다. WSJ에서는 si284 훈련, dev93 검증, eval92 테스트를 사용했으며, 20 K 폐쇄 어휘와 4‑gram 언어 모델을 적용해 beam width 100으로 디코딩했다. 정책학습을 적용한 모델은 baseline 대비 13.8 % 상대 WER 감소를 기록했다. LibriSpeech에서는 전체 960 시간 데이터를 사용했으며, test‑clean에서 5.42 % WER, test‑other에서 14.70 % WER를 달성했다. 이는 기존 CTC‑only 모델(6.42 %/15.18 %)보다 각각 약 4 %와 4 % 정도 개선된 것이다. 또한 정책경사만 적용한 경우에도 소폭 개선이 확인되었으며, 다목적 손실이 가장 큰 효과를 보였다. 비교 실험에서는 여러 최신 엔드투엔드 모델과의 성능을 비교했으며, 제안 모델은 Amodei et al.이 더 많은 훈련 데이터를 사용한 경우와 비슷한 수준의 결과를 얻었다. 특히 LibriSpeech에서 학습된 모델을 WSJ에 그대로 적용했을 때도 좋은 성능을 보여, 정책학습이 데이터 규모와 도메인에 강인함을 시사한다. 결론적으로, CTC와 정책경사를 결합한 다목적 손실은 비분화 가능한 평가 지표를 직접 최적화하면서도 학습 안정성을 유지한다. SCST를 이용한 정책학습은 샘플링 비용이 적고, 한 번의 샘플링과 두 번의 WER 계산만으로 충분히 효과를 발휘한다. 향후 연구에서는 더 정교한 보상 설계, 어텐션 기반 모델과의 결합, 혹은 다중 언어·다중 도메인에 대한 확장 가능성을 탐색할 여지가 있다.

정확도 향상을 위한 정책학습 기반 엔드투엔드 음성인식 개선

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기