다중모달 감정 상태 인식을 위한 다중스케일 CNN과 생물학적 영감 의사결정 융합 모델

본 논문은 EEG와 심박, 피부전도 등 주변 생리 신호를 동시에 활용하여 감정 상태를 분류하는 새로운 프레임워크를 제안한다. 다중스케일 CNN을 통해 각각의 모달리티에서 고·저 스케일 특징을 추출하고, 베이즈 최적 cue 통합 이론에 기반한 신뢰도 계산을 이용해 결정 수준에서 융합한다. DEAP와 AMIGOS 데이터셋에서 98.52%·99.89%의 높은 정확도를 달성하였다.

저자: Yuxuan Zhao, Xinyan Cao, Jinlong Lin

다중모달 감정 상태 인식을 위한 다중스케일 CNN과 생물학적 영감 의사결정 융합 모델
**1. 서론** 감정 상태 인식은 인간‑컴퓨터 인터랙션, 정신건강 모니터링 등 다양한 분야에서 핵심 기술로 부각되고 있다. 기존 연구는 EEG와 같은 뇌파 혹은 심박, 피부전도와 같은 주변 생리 신호 중 하나에만 초점을 맞추어 높은 정확도를 달성했지만, 두 신호 간의 상호보완성을 활용한 다중모달 접근은 아직 충분히 탐구되지 않았다. 특히 결정 수준 융합에서는 단순 투표 방식이 주류를 이루며, 신호별 신뢰도를 정량화하는 방법이 부족했다. 본 논문은 이러한 문제점을 해결하고자, 다중스케일 CNN을 이용해 각 모달리티별 특징을 추출하고, 베이즈 최적 cue 통합 이론에 기반한 신뢰도 계산을 통해 결정 수준에서 융합하는 프레임워크를 제안한다. **2. 관련 연구** 다중모달 감정 인식은 크게 특징 수준, 중간 수준, 결정 수준 융합으로 구분된다. 특징 수준에서는 SVM, DBN, CAE 등으로 추출한 특징을 결합하고, 중간 수준에서는 RBM, SAE 등을 활용해 고차원 의존성을 모델링한다. 결정 수준에서는 다수결, 가중 투표 등이 주로 사용되었으며, 신뢰도 기반의 정교한 방법은 드물다. 또한, 신경과학 분야에서 제시된 베이즈‑최적 cue 통합 모델은 시각·청각 등 다감각 정보 통합에 성공적으로 적용되었지만, 감정 인식에 직접 적용된 사례는 거의 없다. **3. 방법론** *3.1 전처리* 원시 신호는 베이스라인 보정(자극 전 기록된 신호) 후, 10‑20 전극 배치를 9×9 2차원 매트릭스로 재구성한다. 이는 공간 정보를 보존하면서 CNN 입력으로 활용하기 위함이다. 모든 채널은 Z‑score 정규화를 거친다. *3.2 다중스케일 CNN* - **High Scale CNN (HSCNN)**: EEG 전용. 입력 크기 128×9×9, 4×3×3 커널을 갖는 두 개의 Conv‑Pool 블록을 통과한 뒤, 1024‑256 차원의 완전 연결층을 거쳐 4개의 클래스 확률을 출력한다. - **Low Scale CNN (LSCNN)**: 주변 신호 전용. 입력은 128×1 시계열이며, 3 크기의 1차원 커널을 사용한다. 두 개의 Conv‑Pool 블록 후 256 차원의 피처 벡터를 만든다. 두 네트워크 모두 ReLU와 dropout을 적용한다. *3.3 생물학적 영감 의사결정 융합* 각 클래스 라벨을 Russell의 각성‑쾌감 2차원 좌표 평균값으로 매핑하고, 라벨 간 유클리드 거리를 계산한다. 특정 모달리티에서 CNN이 출력한 클래스 확률 p_i와 라벨 i와 j 사이 거리 d_ij를 이용해 신뢰도 f(d_ij)= (1/√2π)·e^{−d_ij²/2} 를 구한다. 모달리티별 신뢰도 행렬을 만든 뒤, 가장 높은 신뢰도를 가진 모달리티의 예측을 최종 결정으로 채택한다. 다른 모달리티의 정보는 보조적으로 유지되어, 다감각 통합에서 ‘가장 신뢰도 높은 감각’이 주도적인 역할을 하는 메커니즘을 모방한다. **4. 실험 및 결과** DEAP와 AMIGOS 두 공개 데이터셋을 사용하였다. 각 데이터셋은 32명(또는 40명)의 피험자를 대상으로 40~45개의 비디오 자극을 제공하고, 1‑9 점의 각성·쾌감 자가 평가를 기록한다. 라벨은 4개의 구역(LALV, HALV, LAHV, HAHV)으로 구분하였다. - *단일 모달리티 성능*: EEG만 사용 시 DEAP 86.3%, AMIGOS 88.7%; 주변 신호만 사용 시 DEAP 84.5%, AMIGOS 90.2% - *제안 융합 성능*: DEAP 98.52%, AMIGOS 99.89% 통계적으로 유의미한 개선(p<0.001)이며, 기존 다중모달 방법(예: MM‑ResLSTM, ECNN)보다 5~15% 높은 정확도를 보였다. **5. 논의** 신뢰도 기반 융합은 각 모달리티의 특성을 그대로 유지하면서, 불확실성이 큰 모달리티의 영향을 최소화한다는 장점이 있다. 베이즈‑최적 cue 통합 이론을 적용함으로써, 감정 라벨 간의 구조적 관계를 활용해 보다 합리적인 결정을 내릴 수 있다. 그러나 라벨 간 거리 정의가 데이터셋마다 달라질 수 있고, 가우시안 가정이 실제 분포와 다를 경우 성능 저하가 예상된다. 또한, 실시간 적용을 위한 연산량 최적화가 필요하다. **6. 결론** 본 연구는 다중스케일 CNN과 신뢰도 기반 결정 융합을 결합한 새로운 다중모달 감정 인식 프레임워크를 제시하였다. 베이즈 최적 cue 통합 이론을 딥러닝 파이프라인에 적용함으로써, 기존 방법을 크게 능가하는 정확도를 달성하였다. 향후 연구에서는 라벨 거리의 데이터‑드리븐 학습, 경량화 모델 설계, 그리고 실시간 시스템 구현을 통해 실제 응용 분야로 확장할 계획이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기