확률 문법을 활용한 러시아어 음성의 프로소디 분할 및 주석

본 연구는 러시아어 자발적 대화 코퍼스를 대상으로, 최소 계층 구조를 갖는 확률 문법을 이용해 음성 신호의 프로소디 정보를 추출하고, 이를 기반으로 단어 경계와 강조 정보를 자동으로 예측하는 방법을 제안한다. 평면 모델, 계층 모델, 그리고 강조 정보를 포함한 계층 모델 세 가지를 구축하고, 엔트로피와 정밀도·재현율·F‑점수 등으로 정량·정성 평가를 수행하였다. 계층 모델이 가장 높은 성능을 보였으며, 강조 정보를 추가한 모델은 약간의 성능 저…

저자: Irina Nesterenko (LPL), Stephane Rauzy (LPL)

**1. 서론** 음성 신호를 연속적인 파형으로부터 의미 있는 단어 단위로 나누는 작업은 인간 청취와 자동 음성 처리 모두에서 핵심적인 문제이다. 심리언어학 연구에 따르면, 청자는 음조 변화, 음소적 패턴, 메트릭 제약, 리듬·멜로디 등 다양한 비결정적 단서를 활용해 경계를 추정한다. 이러한 단서는 통계적으로 규칙성을 보이며, 따라서 확률적 모델링이 가능하다는 가정 하에 본 연구는 러시아어 자발적 대화 코퍼스를 대상으로, 최소 계층 구조를 갖는 확률 문법을 설계하고, 그 예측 성능을 정량·정성적으로 평가한다. **2. 실험 설계** 2.1 **프로소디 모델** 연구자는 음조 라벨링 체계인 Intsint( T, M, B, H, S, L, U, D )를 채택하고, 이를 음조 라벨과 말하기 턴 시작·종료 기호( T, M, B 등)로 확장한다. 라벨은 ‘절대 톤’(T, M, B)과 ‘상대 톤’(H, S, L, U, D)으로 구분되며, 각각은 음성의 피치 궤적에서 추출된 목표점에 매핑된다. 2.2 **계층 구조 구현** - **평면 모델**: 라벨 시퀀스만 사용, 계층 정보 무시. - **계층 모델**: 두 단계(말하기 턴 → 프로소디 단어) 구현. 상위 레벨은 턴 경계, 하위 레벨은 단어 경계. - **계층 + 강조 모델**: 위 두 단계에 추가로 각 단어가 ‘강조(proéminent)’인지 여부를 라벨링. 2.3 **코퍼스 및 데이터 전처리** Intras‑15 프로젝트에서 수집한 러시아어 자발적 대화(약 17분) 825개의 프로소디 단어를 대상으로, Praat를 이용해 음조 라벨, 턴 경계, 강조 여부를 주석하였다. 주석 결과는 XML 형태로 변환되어 확률 문법 구축 모듈에 입력된다. 2.4 **수학적 장치** 라벨 시퀀스 \(c_1, c_2, …, c_n\)에 대해 조건부 확률을 \(\pi_i\)로 정의하고, 전체 시퀀스 확률은 \(\prod_{i=1}^{n}\pi_i\) 로 계산한다. 조건부 확률은 ‘패턴 모델’(Markovian hidden‑state model)로 추정되며, 이는 고정된 n‑gram과 달리 가변 길이 컨텍스트를 허용한다. **3. 모델 구축 및 엔트로피 분석** 세 가지 모델에 대해 엔트로피와 정규화 엔트로피를 계산하였다. 결과는 다음과 같다. | 모델 | 엔트로피 | 정규화 엔트로피 | |------|----------|----------------| | 평면 | 2.259 | 0.942 | | 계층 | 2.064 | 0.897 | | 계층 + 강조 | 2.696 | 0.915 | 계층 모델은 엔트로피가 낮아 라벨 분포가 더 집중됨을 보여준다. 강조 정보를 포함한 모델은 엔트로피가 증가하지만 정규화 엔트로피는 가장 낮아, 라벨 종류가 늘어나면서도 분포가 균등하게 재배열된다는 점을 시사한다. **4. 예측 실험** Viterbi 알고리즘을 적용해 최적 라벨 경로를 탐색하고, 이를 통해 단어 경계와 강조를 동시에 예측하였다. 혼동 행렬과 정밀도·재현율·F‑점수를 산출한 결과는 다음과 같다. - **계층 모델**: 정밀도 0.72, 재현율 0.60, F‑점수 0.655. - **계층 + 강조 모델**: 정밀도 0.688, 재현율 0.518, F‑점수 0.591. 두 모델 모두 ‘정밀도 > 재현율’ 형태로, 실제보다 과도하게 경계를 삽입하는 경향을 보였다. 이는 라벨링 기준이 보수적이었거나, 모델이 경계 후보를 과다 선택했기 때문으로 해석된다. **5. 논의 및 결론** 본 연구는 (1) 최소한의 두 단계 계층 구조만으로도 평면 모델 대비 의미 있는 성능 향상이 가능함을, (2) 강조 라벨을 추가하면 라벨 종류가 늘어나 엔트로피는 감소하지만 실제 예측 정확도는 오히려 감소할 수 있음을 입증한다. 이는 현재 강조 라벨링이 이분법적이거나 데이터 양이 충분히 확보되지 않아 모델이 과적합될 가능성을 시사한다. 제한점으로는 코퍼스 규모가 작고, 라벨링이 수동으로 이루어졌으며, 음성학적·음향적 변수(예: 스펙트럼, 지속시간) 등을 배제했다는 점을 들 수 있다. 향후 연구에서는 (a) 더 풍부한 기능 라벨과 다중 레벨 계층(말하기 턴 → 구문 → 단어 → 음절) 도입, (b) 대규모 자동 주석 파이프라인 구축, (c) 딥러닝 기반 시퀀스 모델과 확률 문법의 하이브리드 등을 통해 모델의 일반화 능력과 실용성을 높일 수 있을 것이다. 결론적으로, 확률 문법과 최소 계층 구조를 결합한 접근법은 인간 청취자의 비결정적 프로소디 단서를 모사하면서도, 자동화된 음성 분할 시스템에 적용 가능한 실용적인 프레임워크를 제공한다는 점에서 학술적·응용적 의의가 크다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기