음악 청취 중 EEG 기반 스페이시오템포럴 감정 인식 CNN 연구
본 연구는 음악을 들으며 기록된 EEG 데이터를 이용해 감정(흥분·수준) 분류를 수행한다. 주관적 라벨링과 12채널 전두부 EEG를 전처리한 뒤, 다양한 윈도우 길이(1~10초)와 전극 배열 방식을 적용한 4가지 CNN 모델(3~6 Conv 레이어)을 비교한다. 10‑fold 및 LOSO 교차검증 결과, 윈도우 크기가 인식 성능에 큰 영향을 미치며 4초가 최적임을 확인하였다. 전극 순서는 성능에 미미한 차이를 보였고, CNN은 동일 데이터셋에서…
저자: Panayu Keelawat, Nattapong Thammasan, Masayuki Numao
본 논문은 음악 청취 중에 기록된 뇌전도(EEG) 신호를 이용해 감정(흥분도와 가치)을 자동으로 인식하는 방법을 제안한다. 연구 배경으로는 감정 인식이 인간‑컴퓨터 상호작용(HCI) 및 뇌‑컴퓨터 인터페이스(BCI) 분야에서 핵심 역할을 하며, 기존에는 이미지·비디오·게임 등 다양한 자극을 사용했지만, 음악은 감정 유발 효과가 크고 실용적 응용(음악 치료·추천) 가능성이 높다. 기존 연구에서는 다중모달(EEG·GSR·EMG 등) 접근이 주를 이뤘지만, 단일 모달인 EEG만을 사용하면 비침습적이며 뇌의 직접적인 상태를 반영한다는 장점이 있다.
데이터는 오사카대학 소속 12명의 남성 피험자를 대상으로, 각자는 16곡의 MIDI 음악을 선택해 순서대로 청취하였다. EEG는 10‑20 시스템 기반 12채널(전두·중전두·측두·두정)으로 250 Hz 샘플링했으며, 청취 중 눈을 감고 움직임을 최소화하도록 지시하였다. 청취 후 피험자는 동일한 곡을 다시 들으며 화면에 표시된 arousal‑valence 2차원 평면에 실시간으로 클릭해 자기보고 라벨을 제공하였다.
전처리 단계에서는 0.5‑60 Hz 밴드패스, 60 Hz 전원선 노치, ICA 기반 아티팩트(눈깜박임·근전도 등) 제거, 그리고 표준화가 수행되었다. 라벨은 arousal와 valence를 각각 고·저, 양·음으로 이진화했으며, 이는 감정 인식을 두 개의 독립적인 이진 분류 문제로 전환한다.
CNN 기반 모델은 3Conv, 4Conv, 5Conv, 6Conv 네 가지 아키텍처로 설계되었다. 각 모델은 5×5, 3×3, 2×2 등 다양한 커널 크기의 Conv 레이어와 MaxPooling, Dropout(0.5)으로 구성되며, 마지막에는 128‑노드 Fully‑Connected 레이어와 2‑노드 출력(softmax)으로 arousal와 valence를 각각 예측한다. 활성화 함수는 ReLU, 손실은 교차 엔트로피, 최적화는 Adam이며, 조기 종료(Early Stopping)로 과적합을 방지한다.
시간적 윈도우는 1초부터 10초까지 1초 간격으로 비중첩 슬라이싱했으며, 각 윈도우에 대해 다수결 투표로 최종 라벨을 결정한다. 실험은 10‑fold 교차 검증(전체 피험자 섞음)과 LOSO 교차 검증(한 피험자만 테스트) 두 가지 방식으로 수행되었다. 성능 평가는 정확도와 Matthews Correlation Coefficient(MCC)를 사용했으며, MCC는 클래스 불균형을 보정한다.
전극 순서는 (1) 무작위, (2) 3D 물리적 배열(실제 캡 형태를 2D 매트릭스로 재구성), (3) 인접 상관계수 최대화, (4) 인접 상관계수 최소화 네 가지로 재배열하였다. 상관계수는 Pearson Correlation을 이용해 전극 쌍 간 계산했으며, 최대화/최소화 알고리즘은 인접 전극 쌍의 평균 상관을 높이거나 낮추는 방식으로 전극 순서를 결정한다.
실험 결과, 윈도우 크기가 4초일 때 가장 높은 성능을 보였으며, arousal 분류에서는 3Conv 모델이 75.5% 정확도(MCC 0.51), 6Conv 모델이 78.35% 정확도(MCC 0.57)를 기록했다. valence 분류에서는 전반적으로 73~84% 정확도를 보였으며, 5Conv 모델이 83.68% 정확도(MCC 0.67)로 최고였다. 윈도우가 짧아질수록(1‑2초) 성능이 급격히 떨어졌고, 5초 이상에서는 약간의 회복이 있었지만 4초가 최적점으로 나타났다. 전극 순서에 따른 차이는 미미했으며, 물리적 배열이 약간 높은 정확도를 보였지만 통계적으로 유의미한 차이는 없었다.
SVM 기반 기존 연구와 비교했을 때, 동일 데이터와 동일 교차 검증 설정에서 CNN은 LOSO 상황에서 약 3~5%p 높은 정확도와 MCC를 달성했다. 이는 CNN이 자동으로 학습한 스페이시오템포럴 특징이 전통적인 파워 스펙트럼·비선형 복잡도 특징보다 감정 상태를 더 효과적으로 구분한다는 것을 의미한다.
논문의 한계로는 피험자 수가 적고 전극 수가 12개에 제한돼 전두부 중심의 정보만 활용했다는 점, 라벨링이 자기보고에 의존해 클래스 불균형이 존재한다는 점, 윈도우 중첩을 적용하지 않아 데이터 효율이 낮다는 점을 들 수 있다. 향후 연구에서는 (1) 고밀도 EEG(64~128채널)와 뇌 영역 전반을 포괄하는 전극 배치, (2) 윈도우 중첩·데이터 증강을 통한 학습 데이터 확대, (3) 음악 자체의 음향 특징과 결합한 멀티모달 접근, (4) 실시간 감정 피드백 시스템 구축 등을 통해 성능 및 실용성을 크게 향상시킬 수 있을 것으로 기대한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기