다계층 로그오닉 실어증 음성 시뮬레이션으로 PPA 진단 강화

본 논문은 로그오닉 변이(primary progressive aphasia, lvPPA)의 언어 결함을 임상 전문가가 정의한 다중 수준(의미·음운·시간)으로 체계화하고, 이를 계층적 텍스트·음성 변환 파이프라인에 적용해 대규모 합성 데이터를 생성한다. 생성된 HASS 코퍼스를 이용해 훈련한 자동 진단 모델은 실제 임상 녹음에 대해 기존 모델보다 높은 정확도와 교차기관 일반화를 보이며, 데이터 희소 문제를 효과적으로 완화한다.

저자: Harrison Li, Kevin Wang, Cheol Jun Cho

다계층 로그오닉 실어증 음성 시뮬레이션으로 PPA 진단 강화
본 논문은 primary progressive aphasia(PPA) 진단에 필요한 대규모 고품질 언어 데이터가 부족한 문제를 해결하고자, 로그오닉 변이(lvPPA)의 특성을 임상 전문가와 협업해 체계적으로 정의하고, 이를 기반으로 ‘Hierarchical Aphasic Speech Simulation(HASS)’이라는 합성 파이프라인을 구축하였다. 1. **배경 및 문제점** PPA는 진행성 언어 장애를 특징으로 하며, 특히 연결된 자연스러운 말뭉치가 진단에 핵심적인 정보를 제공한다. 그러나 환자 모집, 윤리·프라이버시 제약, 전문가 라벨링 비용 등으로 실제 임상 녹음은 규모가 작고 기관 간 편차가 크다. 기존의 합성 연구는 단일 수준(예: 반복, 삽입, 일시정지)만을 삽입해 비유창성을 모방했으며, 다중 수준(의미·음운·시간) 결함을 동시에 재현하지 못했다. 2. **HASS 설계 원칙** - **임상 기반 결함 정의**: lvPPA의 핵심 증상인 어휘 검색 장애와 그에 따른 음운 오류·말의 정지를 세 가지 레벨(semantic, phonological, temporal)로 구분하고, 각 레벨별 마커와 발생 확률을 전문가가 지정하였다. - **계층적 시뮬레이션**: 두 단계(lexical retrieval layer, phonological encoding layer)로 구성된 파이프라인을 도입. 첫 번째 레이어는 LLM(Gemini 3)을 사용해 의미 수준에서 회피·우회·채우기 등을 삽입하고, 두 번째 레이어는 단어 정렬된 IPA 시퀀스에

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기