베 bengali 실수 숫자 음성 코퍼스 구축과 평가

본 논문은 벵골어 실수 숫자 발화를 위한 포괄적인 음성 코퍼스를 최초로 구축하고, 이를 기반으로 두 가지 자동 음성 인식(ASR) 시스템을 평가한다. 서론에서는 벵골어 ASR 연구가 데이터 부족으로 정체돼 왔으며, 기존 코퍼스가 특정 분야에 국한돼 있거나 어휘가 제한적이라는 문제점을 지적한다. 이를 해결하기 위해 ‘Bengali real number speech corpus’를 제안하고, 모든 가능한 숫자 어휘를 포함하도록 설계하였다. 데이터 구축 단계는 크게 두 부분으로 나뉜다. 첫 번째는 어휘 정의로, 0‑100까지의 기본 숫자와 100, 200,…,900, 천, lakh, crore, decimal 등 12개의 특수 단어를 포함해 총 115개의 고유 단어를 선정하였다. 특히 ‘45’는 두 가지 발음 형태를 모두 수록해 실제 발화 변이를 반영하였다. 두 번째는 무작위 문자열 생성 알고리즘(Algorithm 1)이다. 여기서는 네 개의 워드 리스트(w1: 0‑99, w2: 100‑900, w3: 단위, w4: 소수점)를 활용해 4, 6, 8단어 길이의 문장을 생성한다. 각 문장은 숫자 어휘와 단위 어휘가 교차하도록 구성되며, ‘decimal’이 문장 끝에 오지 않도록 제어한다. 생성된 문자열은 의미적으로는 부자연스러울 수 있지만, 학습에 방해가 되지 않도록 포함하였다. 녹음은 벵골어 원어민 10명(전부 남성, 연령 20‑23세)에게 진행되었으며, 실험실, 교실, 폐쇄된 방 등 다양한 실내 환경에서 수행하였다. 녹음된 음성은 300 Hz‑3 kHz 밴드패스 필터링 후 256 kbps WAV 파일로 저장되었다. 최종적으로 2,302개의 샘플(총 3.79시간)이 확보되었으며, 각 샘플은 평균 8단어를 포함한다. 데이터 조직은 세 부분으로 구성된다. (1) 텍스트 파일(text-data.txt)에는 각 샘플의 전사와 고유 식별자가 포함된다. (2) 어휘‑음소 사전(asr_avro.dic)에서는 115개의 단어를 30개의 벵골어 음소로 매핑한다. (3) 오디오 파일은 화자별 디렉터리 구조로 저장된다. 전체 코퍼스는 17,582개의 단어와 126,776개의 음소를 포함한다. 음소 빈도 분석 결과, ‘A’가 10.8%로 가장 빈도가 높고, ‘AI’는 0.15%에 불과해 심각한 불균형을 보인다. 이는 데이터 수집 시 균등 샘플링을 적용했기 때문이며, 실제 언어 사용에서도 유사한 불균형이 존재할 가능성을 시사한다. 실험에서는 두 가지 ASR 모델을 적용하였다. 첫 번째는 CMU‑Sphinx4 기반의 히든 마코프 모델(HMM)로, 동일 데이터로 학습·테스트했을 때는 낮은 오류율을 보였으나, 80:20 비율로 훈련·테스트를 분리했을 때 15%의 단어 오류율을 기록하였다. 두 번째는 양방향 LSTM 모델로, 프레임 단위 시퀀스 학습 후 후처리 알고리즘을 통해 개별 단어를 인식한다. 훈련 초기 오류율이 급격히 감소했으며, 최종적으로 13.2%의 단어 오류율과 29%의 음소 오류율을 달성하였다. LSTM이 HMM보다 약간 낮은 단어 오류율을 보였지만, 음소 수준에서는 여전히 높은 오류가 남아 있다. 결론에서는 본 코퍼스가 벵골어 실수 숫자 인식 연구에 중요한 기반을 제공한다는 점을 강조한다. 현재 코퍼스는 화자 다양성(성별, 연령)과 음소 빈도 균형 측면에서 한계가 있으며, 향후 여성 화자와 다양한 연령층을 추가하고, 실제 사용 빈도에 기반한 가중치를 적용해 코퍼스의 대표성을 강화할 계획이라고 제시한다. 또한, 현재 제시된 두 모델 외에도 최신 Transformer 기반 모델을 적용해 성능 향상을 모색할 여지가 있다.

베 bengali 실수 숫자 음성 코퍼스 구축과 평가

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기