ASR 품질이 알츠하이머 자동 진단에 미치는 영향: Whisper 기반 사전학습 모델 비교

본 논문은 자동 음성 인식(ASR) 품질이 알츠하이머병(AD) 조기 진단을 위한 언어 모델링에 미치는 영향을 체계적으로 조사한다. 연구는 2021년 ADReSSo 진단 데이터셋을 사용했으며, 이 데이터는 166개의 훈련 샘플(AD 87, 정상 79)과 71개의 블라인드 테스트 샘플로 구성되어 있다. 음성 데이터는 두 가지 Whisper ASR 모델, Whisper‑base와 Whisper‑small을 이용해 전사되었으며, 전사 과정 외에는 모든 전처리와 피처 추출 단계를 동일하게 유지해 ASR 품질 차이만을 변수로 설정하였다. 전사된 텍스트는 unigram·bigram을 포함한 TF‑IDF 벡터화 과정을 거쳤다. 어휘 사전은 최대 3000개, 최소 문서 빈도 2, 영어 불용어 제거 등으로 구성해 고차원 희소 벡터를 생성하였다. 이 피처를 입력으로 로지스틱 회귀와 선형 서포트 벡터 머신(SVM) 두 가지 선형 분류기를 적용했으며, 클래스 불균형을 보정하기 위해 가중치를 균형 있게 부여하였다. 평가 방법으로는 층화 5‑fold 교차검증을 5번 반복해 총 25개의 폴드 점수를 산출하고, 주요 성능 지표로 균형 정확도(BAcc)를 사용하였다. 또한, 폴드‑매치된 t‑검정과 Cohen’s d를 통해 ASR 모델 간 차이와 분류기 간 차이를 통계적으로 검증하였다. 실험 결과는 다음과 같다. Whisper‑small 전사를 사용한 선형 SVM이 BAcc 0.785 ± 0.0745로 가장 높은 평균 성능을 보였으며, Whisper‑base 대비 평균 0.0497 포인트( p = 0.0007, d ≈ 0.68)의 유의미한 향상을 나타냈다. 로지스틱 회귀에서도 Whisper‑small이 BAcc 0.7757 ± 0.0703을 기록했으며, Whisper‑base 대비 0.0266 포인트( p = 0.022, d ≈ 0.34)의 유의미한 차이를 보였다. 반면, 동일 ASR 조건에서 SVM과 로지스틱 회귀 간 차이는 p = 0.302로 유의미하지 않아, 전사 품질이 모델 선택보다 더 큰 영향을 미친다는 결론을 뒷받침한다. 특징 해석에서는 AD 환자 전사에 “going”, “okay”, “happening”, “tell” 등 모호하고 회피적인 표현이 높은 양의 계수를 갖는 반면, 정상군 전사에는 “window”, “sink”, “cookie”, “overflowing” 등 구체적 장면 묘사 어휘가 높은 음의 계수를 받아 정상 클래스를 지지하였다. 이는 기존 임상 연구에서 보고된 ‘구체성 감소’와 ‘주저·반복 증가’ 현상을 텍스트 수준에서 재현한 것으로, 모델의 해석 가능성을 높인다. 논문은 또한 공식 블라인드 테스트(71개)에서 Whisper‑small 전사와 최적 SVM 모델을 적용해 예측 파일을 생성했으며, 라벨이 공개되지 않아 직접적인 성능 검증은 불가능하지만, 벤치마크 제출용으로 완전한 파이프라인을 제공한다. 전체 파이프라인은 코드와 설정을 공개해 재현성을 보장한다. 결론적으로, (1) ASR 전사 품질이 알츠하이머 자동 진단 성능에 결정적인 영향을 미치며, (2) 고성능 복잡 모델 없이도 TF‑IDF와 선형 모델만으로도 경쟁력 있는 정확도(균형 정확도 0.785)를 달성할 수 있음을 입증한다. 따라서 임상 현장에서는 Whisper‑small과 같은 경량 고품질 ASR을 우선 선택하고, 해석 가능한 선형 텍스트 모델을 활용하는 것이 비용·시간·투명성 측면에서 실용적 전략이다.

ASR 품질이 알츠하이머 자동 진단에 미치는 영향: Whisper 기반 사전학습 모델 비교

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기