MFCC 기반 순환 신경망을 이용한 자동 임상 우울증 인식 및 평가

본 논문은 음성만을 이용해 임상 우울증을 자동으로 인식하고, 그 심각도를 정량화하는 새로운 딥러닝 프레임워크를 제안한다. 연구 배경으로는 우울증이 전 세계 3억 5천만 명에게 영향을 미치는 심각한 정신 질환이며, 기존의 자가 보고식 설문지(PHQ‑8) 기반 진단이 주관적이고 정확도가 낮다는 점을 들었다. 최근 음성·영상·텍스트 등 멀티모달 데이터를 활용한 연구가 활발히 진행되고 있으나, 음성만으로도 충분히 높은 진단 성능을 기대할 수 있다는 선행 연구 결과를 바탕으로, 본 연구는 음성 기반 접근에 집중한다. 데이터셋은 DAIC‑WOZ(Depression Audio-Visual Interaction Corpus)에서 제공되는 임상 인터뷰 녹음과 PHQ‑8 점수를 사용하였다. 인터뷰는 인터뷰어와 피험자 간 대화 형태이며, 우울증 여부와 심각도 라벨이 포함되어 있다. 데이터는 피험자 음성만을 추출하기 위해 스피커 다이애리제이션을 수행하고, 인터뷰어 음성은 제외하였다. 특징 추출 단계에서는 멜 주파수 켑스트럼 계수(MFCC)를 핵심 저수준 특징으로 선택하였다. 각 2.5초 윈도우를 0.5초 간격으로 슬라이딩하여 프레임을 만들고, Hamming 윈도우와 DFT를 적용한 뒤 로그 스펙트럼을 구한다. 24개의 멜 스펙트럼을 DCT로 변환해 60개의 MFCC 계수를 얻으며, 1차·2차 미분계수도 함께 포함한다. 이렇게 얻은 MFCC 행렬은 전체 데이터에 대해 Z‑score 정규화를 수행한다. 고수준 특징 추출 및 분류를 위해 LSTM 기반 순환 신경망을 설계하였다. 모델은 3개의 연속 LSTM 레이어와 2개의 전결합(Dense) 레이어로 구성되며, 최종 출력은 두 가지 형태로 분기된다. 하나는 시그모이드 활성화를 가진 2‑노드 출력으로 PHQ‑8 이진 라벨(우울증/비우울증)을 예측하고, 다른 하나는 소프트맥스 활성화를 가진 24‑노드 출력으로 PHQ‑8 점수(0~23)를 다중 클래스 형태로 예측한다. 소규모 데이터셋의 한계를 극복하기 위해 두 가지 전략을 도입하였다. 첫째, 데이터 증강으로 원본 음성에 노이즈 주입, 피치 변환, 시간 스트레칭, 음량 조절 등 네 가지 변형을 적용해 학습 샘플을 인위적으로 확대하였다. 둘째, 전이 학습을 통해 대규모 음성 인식 혹은 감정 인식 모델에서 사전 학습된 가중치를 초기값으로 사용함으로써 모델 수렴 속도와 일반화 능력을 향상시켰다. 실험 결과는 다음과 같다. 이진 우울증 분류에서는 정확도 76.27%와 RMSE 0.4를 기록했으며, PHQ‑8 점수 예측에서는 RMSE 0.168을 달성하였다. 이는 기존 연구에서 보고된 최고 성능(예: DCNN‑DNN 기반 1.46 RMSE)보다 현저히 우수한 결과이다. 멀티모달 실험에서는 시각적 행동 유닛(AU)과 추가 음향 특징(예: 스펙트럼, 프로소디) 등을 결합했을 때 정확도가 각각 95.6%와 86%까지 상승했지만, 시각 정보는 개인정보 보호 문제를 야기하고, 추가 음향 특징은 연산 비용을 증가시킨다는 트레이드오프를 지적하였다. 논문의 주요 기여는 다음과 같다. (1) MFCC와 LSTM만을 사용한 간결한 구조에도 불구하고, 데이터 증강·전이 학습을 통해 소규모 임상 음성 데이터에서 높은 성능을 달성했다. (2) 비침습·실시간 적용이 가능한 시스템으로, 원격 진료나 모바일 헬스케어 환경에 적합하다. (3) 멀티모달 확장 가능성을 제시하면서, 시각 정보 사용에 따른 프라이버시 이슈와 연산 복잡도 문제를 명확히 제시하였다. 향후 연구에서는 더 다양한 언어·문화권 데이터와 텍스트(자연어 처리) 정보를 통합하고, 프라이버시 보호를 위한 암호화·익명화 기술을 적용한 멀티모달 융합 모델을 개발하는 방향을 제시한다.

MFCC 기반 순환 신경망을 이용한 자동 임상 우울증 인식 및 평가

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기