앵커워드 활용 끝‑끝 음성인식
본 논문은 스마트 스피커에서 웨이크업 워드(앵커워드)로부터 추출한 화자 정보를 이용해, 뒤따르는 음성 인식 시 배경 잡음·다른 화자의 말소리를 효과적으로 억제하는 두 가지 엔드‑투‑엔드 모델을 제안한다. 하나는 멀티소스 어텐션, 다른 하나는 프레임‑레벨 마스크 학습이며, 합성 잡음 데이터와 멀티태스크 학습을 통해 훈련 데이터의 부족 문제를 해결한다. 실험 결과, 실제 Alexa 서비스 데이터에서 12‑15% 상대 WER 감소를 달성하였다.
저자: Yiming Wang, Xing Fan, I-Fan Chen
본 논문은 스마트 스피커와 같은 음성 제어 디바이스에서, 사용자가 “Alexa”와 같은 웨이크업 워드(앵커워드)를 말한 뒤 이어지는 명령어를 인식할 때, 주변 잡음이나 다른 사람·미디어의 말소리와 같은 방해 음성을 무시하고 정확히 인식하는 문제를 다룬다. 기존의 엔드‑투‑엔드 ASR 모델은 전체 오디오를 동일하게 처리해 방해 음성에 취약했으며, 특히 훈련 데이터에 방해 음성이 거의 없기 때문에 실제 서비스 환경에서 성능 저하가 심했다. 이를 해결하기 위해 저자들은 앵커워드에 포함된 화자 정보를 활용하는 두 가지 새로운 모델을 제안한다.
첫 번째 모델은 “멀티소스 어텐션(Multi‑source Attention)”이다. 기본 attention‑based encoder‑decoder 구조에 화자 임베딩 ˜w를 추가한다. S‑Encoder라는 별도 네트워크가 앵커워드 구간을 입력받아 화자 특성을 추출하고, 이를 max‑pooling 혹은 마지막 hidden state를 통해 고정 길이 벡터 ˜w로 요약한다. 디코더 단계에서 어텐션 스코어 ωₙ,ₜ(디코더 상태와 기존 인코더 출력의 결합)와 화자 유사도 φₜ = Similarity(uₜ,˜w) 를 가중합(g·φₜ)한 뒤 softmax를 적용해 최종 어텐션 가중치 αₙ,ₜ를 산출한다. 이렇게 하면 화자 특성이 높은 프레임에 어텐션이 집중되어, 방해 화자의 프레임은 자연스럽게 무시된다.
두 번째 모델은 “마스크 기반 모델(Mask‑based Model)”이다. 여기서는 어텐션 전에 프레임‑별 마스크 φₜ = sigmoid(g·Similarity(uₜ,˜w))를 계산하고, 이를 기존 인코더 출력 hₜ에 곱해 h̃ₜ = φₜ·hₜ를 만든다. 마스크가 0에 가까울수록 해당 프레임은 억제되고, 1에 가까울수록 유지된다. 이후 어텐션은 마스크된 특징 h̃ₜ만을 대상으로 수행한다. 이 방식은 프레임 선택을 독립적으로 수행하게 하여, 어텐션이 softmax로 정규화되는 한계(전체 프레임에 확률을 할당해야 함)를 극복한다.
두 모델 모두 화자 정보를 추출하기 위해 별도 S‑Encoder를 사용한다. S‑Encoder는 3개의 convolution 레이어로 구성되며, 출력은 max‑pooling을 통해 고정 길이 ˜w로 변환된다.
훈련 데이터의 도메인 불일치를 해결하기 위해 두 가지 합성 데이터 생성 방법을 제안한다. 합성 방법 1은 웨이크업 워드 이후에 무작위 다른 발화의 짧은 구간(50~150 프레임)을 삽입해 “speaker‑change” 상황을 모방한다. 합성 방법 2는 웨이크업 워드 이후 전체 발화를 다른 발화로 교체해 “no desired speaker” 상황을 만든다. 이렇게 만든 합성 데이터를 원본 데이터와 50%:44%:6% 비율로 혼합해 학습에 사용한다.
마스크 기반 모델은 합성 데이터에서 얻은 “gold mask”(원본 프레임=1, 삽입 프레임=0)를 이용해 멀티태스크 학습을 수행한다. 전체 손실 L = (1‑λ)L_ASR + λL_mask 로 정의하고, λ를 0.3 정도로 설정해 ASR와 마스크 정확도 사이의 균형을 맞춘다.
실험은 1200시간 규모의 영어 실서비스 데이터(Amazon Echo)에서 수행되었다. 각 발화는 동일한 웨이크업 워드로 시작하며, 64‑dim LFBE 특징을 10 ms 간격으로 추출한다. 베이스라인은 기존 attention‑based encoder‑decoder 구조이며, 제안 모델은 동일한 인코더·디코더에 S‑Encoder와 멀티소스 어텐션 혹은 마스크 레이어를 추가한다. 두 개의 테스트 셋을 사용했다. “normal” 셋은 훈련과 유사한 깨끗한 환경(25 k 단어), “hard” 셋은 실제 서비스에서 수집된 방해 음성 포함 환경(5.4 k 단어)이다.
결과는 다음과 같다. 멀티소스 어텐션 모델은 합성 데이터를 사용했을 때 “hard” 셋에서 12.5% 상대 WER 감소를 보였으며, “normal” 셋에서는 1.5% 정도의 소폭 악화만 있었다. 베이스라인 모델은 합성 데이터를 사용하면 오히려 성능이 크게 떨어졌다. 마스크 기반 모델은 멀티태스크 학습을 통해 마스크 정확도가 향상되었고, 전체적으로 15% 수준의 상대 WER 감소를 달성했다. 두 모델 모두 삽입된 방해 음성에 대한 삽입 오류를 크게 줄였으며, 삭제 오류는 크게 증가하지 않았다.
핵심 기여는 (1) 짧은 앵커워드에서 추출한 화자 임베딩이 방해 화자와의 구분에 충분히 강력함을 입증, (2) 어텐션에 화자 정보를 직접 통합하거나 사전 마스크를 적용해 프레임 선택의 자유도를 확대, (3) 합성 데이터와 멀티태스크 학습을 통해 훈련‑테스트 도메인 격차를 효과적으로 메움이다. 이러한 접근은 스마트 스피커뿐 아니라 콜센터, 차량 내 음성 인터페이스 등 다양한 실시간 음성 인식 시나리오에 적용 가능할 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기