양방향 격자 순환 신경망을 이용한 신뢰도 추정 확장
본 논문은 기존 1‑best 전사에만 적용되던 양방향 순환 신경망(BiRNN) 기반 신뢰도 추정 방식을 혼동망(confusion network)과 라티스(lattice) 구조 전체에 확장한다. 전방·후방 상태 전파 방법, 가변 수의 아크를 병합하는 전략(평균, 정규화 후포스터리어, 어텐션) 및 레벤슈타인 정렬을 이용한 목표 신뢰도 라벨링을 제안한다. 조지아어 음성 데이터와 IARPA OpenKWS 2016 대회 시스템을 사용한 실험에서, 혼동망…
저자: Qiujia Li, Preben Ness, Anton Ragni
본 논문은 자동 음성 인식(ASR) 시스템에서 오류를 완화하고 downstream·upstream 애플리케이션의 성능을 높이기 위한 핵심 요소인 신뢰도(confidence) 점수의 정확성을 향상시키는 새로운 접근법을 제시한다. 기존에는 단어 사후확률(posterior probability)을 그대로 신뢰도로 사용하거나, 결정 트리(decision tree)와 같은 간단한 매핑을 적용했지만, 이러한 방법은 과신(over‑confidence) 문제가 심각했다. 최근에는 양방향 순환 신경망(BiRNN)이 과거와 미래 정보를 동시에 활용해 신뢰도 추정에 좋은 성능을 보였지만, 적용 범위가 1‑best 전사에만 국한돼 있었다.
본 연구는 BiRNN을 혼동망(confusion network, CN)과 라티스(lattice)와 같은 그래프 형태의 다중 가설 구조 전체에 확장한다. 이를 위해 다음과 같은 핵심 기술을 개발하였다.
1. **전·후방 상태 전파 설계**
- 기존 BiRNN은 시간 순서대로 전방 →hₜ와 역방향 ←hₜ 두 개의 LSTM 상태를 계산한다.
- CN·라티스에서는 각 타임스텝에 여러 아크가 동시에 존재하므로, 전방 상태를 가중합 →hₜ = ∑ᵢαᵢₜ →hᵢₜ 로 합친다. 후방 상태도 동일하게 역전파한다.
2. **가변 아크 병합 전략**
- **단순 가중치**: 최고 사후확률 아크만 선택하거나, 모든 아크를 평균·정규화된 사후확률로 가중한다.
- **어텐션 메커니즘**: 각 아크에 키 kᵢₜ =
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기