인터뷰어 질문이 편향이 된다: 반자동 우울증 탐지의 숨은 함정
본 논문은 반구조화된 임상 인터뷰에서 인터뷰어가 제시하는 고정된 질문이 우울증 자동 판별 모델에 편향을 일으킨다는 점을 밝힌다. 인터뷰어 발화만을 사용해 학습한 모델이 참가자 발화만을 사용한 모델과 동등하거나 더 높은 성능을 보이며, 이는 질문의 위치·내용이라는 스크립트 특성을 이용한 ‘프롬프트 편향’ 때문임을 실험과 시각화 분석을 통해 입증한다.
저자: Hasindri Watawana, Sergio Burdisso, Diego A. Moreno-Galván
본 논문은 자동 우울증 탐지 연구에서 흔히 사용되는 반구조화된 임상 인터뷰 데이터가 내재한 편향을 체계적으로 조사한다. 연구자는 ANDROIDS(이탈리아어), DAIC‑WOZ(영어), E‑DAIC(영어)라는 세 개의 공개 코퍼스를 선택했으며, 각 코퍼스는 인터뷰어가 사전에 정의된 질문 세트를 사용해 일관된 대화를 이끌어낸다. 이러한 설계는 임상적 재현성을 높이는 장점이 있지만, 동시에 모델이 질문 자체를 판별 근거로 삼을 위험을 내포한다.
데이터 전처리에서는 ANDROIDS와 E‑DAIC에 대해 WhisperX 기반 자동 음성 인식(ASR) 파이프라인을 적용해 인터뷰어와 참가자 발화를 각각 전사한다. 이는 실제 서비스 환경에서 발생할 수 있는 전사 오류를 반영하기 위함이다. 이후 두 종류의 모델을 도입한다. 첫 번째는 Longformer‑BERT 기반 트랜스포머로, 긴 대화 텍스트를 효율적으로 처리하도록 설계되었으며, 문서 전체를 하나의 CLS 토큰에 집계해 이진 분류 헤드를 추가한다. 두 번째는 ω‑GCN으로, 단어와 문서(인터뷰) 노드를 그래프 형태로 연결해 다중 레이어 컨볼루션을 수행한다. GCN은 각 단어에 대한 클래스 확률을 직접 출력하므로, 어떤 단어가 모델의 결정에 기여했는지를 쉽게 추적할 수 있다.
각 모델에 대해 두 가지 학습 변형을 만든다. ‘Participant‑only (P)’는 참가자 발화만을 입력으로 사용하고, ‘Interviewer‑only (I)’는 인터뷰어 발화만을 사용한다. 이렇게 함으로써 인터뷰어 질문이 얼마나 강력한 신호가 되는지를 직접 비교한다. 실험은 5‑fold 교차검증(ANDROIDS)과 공식 개발·테스트 분할(DAIC‑WOZ, E‑DAIC)을 이용해 진행한다.
결과는 세 데이터셋 모두에서 I‑모델이 P‑모델과 동등하거나 더 높은 매크로 F1 점수를 기록한다는 점에서 일관된다. 특히 ANDROIDS에서는 I‑Longformer가 0.98이라는 거의 완벽에 가까운 점수를 얻어, P‑Longformer(0.79)와 큰 격차를 보인다. DAIC‑WOZ에서는 GCN 계열이 I‑버전(0.88)이 P‑버전(0.85)보다 우수했지만, Longformer는 반대로 P‑버전(0.68)이 I‑버전(0.53)보다 좋았다. 이는 의미 기반 트랜스포머가 일부 경우 질문 편향을 완화할 수 있음을 시사한다. E‑DAIC에서는 GCN이 I‑버전(0.86)이 P‑버전(0.81)보다 우수했으며, Longformer는 두 변형이 비슷한 성능을 보였다.
시각적 분석에서는 시간‑축 히트맵을 통해 모델이 어떤 구간에 집중했는지를 확인한다. I‑GCN은 특정 질문 구간에 좁고 강한 키워드 밀도를 보이며, 이는 모델이 몇몇 고정된 프롬프트에만 의존한다는 증거다. 반면 P‑GCN은 인터뷰 전반에 걸쳐 고르게 낮은 밀도의 키워드를 활용한다. 구체적인 프롬프트 예시로는 “How do you cope with that?”, “Do you still go to therapy?” 등이 있으며, 이러한 질문이 우울군과 대조군을 구분하는 주요 신호로 작용한다.
논의에서는 이러한 ‘프롬프트 편향’이 모델 해석 가능성을 크게 저해한다는 점을 강조한다. 인터뷰어 질문이 실제 임상적 의미와는 무관하게 모델이 높은 정확도를 달성하게 만들면, 연구 결과가 과대평가될 위험이 있다. 또한 자동 전사본을 사용했음에도 동일한 편향이 관찰된 점은, 실제 배포 환경에서도 이 문제가 지속될 가능성을 보여준다. 따라서 향후 연구에서는 (1) 인터뷰어 발화를 학습에서 제외하거나, (2) 발화별 기여도를 정량화해 편향을 보정하고, (3) 음성·비언어적 신호와 결합해 보다 풍부한 멀티모달 특성을 활용하는 방안을 제시한다.
결론적으로, 반구조화된 인터뷰 프로토콜이 일관성을 제공하지만, 인터뷰어 질문 자체가 모델의 주요 판단 근거가 되는 ‘숨은 편향’이 존재한다. 연구자는 데이터 설계 단계에서 이러한 편향을 인지하고, 모델이 실제 환자 언어와 행동을 학습하도록 설계·평가해야 한다는 점을 강력히 주장한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기