감정 추정 챌린지 솔루션: 멀티모달 회귀와 스펙트럼 메타러닝 융합

본 논문은 2018 IEEE WCCI One‑Minute Gradual‑Emotional Behavior Challenge에서 제시된 영상 기반 감정(흥분도·쾌감도) 추정 문제에 대한 해결책을 제시한다. 얼굴, 전체 프레임, 시퀀스 영상 특징을 이용한 세 가지 CNN/LSTM 기반 회귀 모델과, 오디오 신호에서 추출한 76개의 저‑레벨·고‑레벨 특징을 활용한 SVR 모델을 구축하였다. 이후 스펙트럼 메타‑러너(SMLR)를 이용해 네 모델의 예측…

저자: Yuqi Cui, Xiao Zhang, Yang Wang

본 논문은 2018 IEEE World Congress on Computational Intelligence에서 개최된 One‑Minute Gradual‑Emotional Behavior Challenge(이하 OMG Challenge)의 솔루션을 상세히 기술한다. 챌린지의 목표는 1분 내외의 짧은 동영상에서 발화 단위로 연속적인 흥분도(arousal)와 쾌감도(valence)를 추정하는 것이며, 평가 지표는 Concordance Correlation Coefficient(CCC)와 평균 제곱 오차(MSE)이다. 데이터는 유튜브에서 수집된 420개의 장시간 영상을 발화별로 분할한 2,442개의 학습 샘플, 621개의 검증 샘플, 2,229개의 테스트 샘플로 구성된다. 각 발화는 최소 5명의 라벨러가 Amazon Mechanical Turk을 통해 주관적 감정 점수를 부여하였다. 저자들은 시각 및 청각 두 모달을 활용한 네 가지 기본 회귀 모델을 설계하였다. 첫 번째 모델인 CNN‑Face는 프레임마다 얼굴을 검출하고, Xception 네트워크(Imagenet 사전학습)를 통해 2048‑차원 특징을 추출한다. 프레임별 특징을 평균 풀링해 발화당 하나의 벡터를 만든 뒤, 1024‑노드 은닉층(ReLU, dropout 0.25)과 단일 출력층(흥분도는 sigmoid, 쾌감도는 linear)으로 구성된 다층 퍼셉트론(MLP)에 입력해 회귀한다. 두 번째 모델인 CNN‑Visual은 얼굴 대신 전체 프레임을 동일한 Xception 파이프라인에 투입해 특징을 얻으며, 구조는 CNN‑Face와 동일하지만 입력 영역이 넓다. 세 번째 모델인 LSTM‑Visual은 시계열 정보를 활용한다. 각 발화를 20개의 프레임으로 균일하게 샘플링하고, Inception‑V3(Imagenet 사전학습)으로 2048‑차원 특징을 추출한다. 이렇게 만든 20 × 2048 특징 행렬을 2‑계층 LSTM(드롭아웃, ReLU)으로 처리한 뒤, 512‑노드 MLP와 단일 출력층을 거쳐 최종 예측을 만든다. 이는 영상 내 시간적 변화를 포착하려는 시도이며, 프레임 수가 부족한 경우 첫 프레임을 복제해 보강한다. 청각 모달을 담당하는 SVR‑Audio 모델은 오디오 신호를 .wav로 변환하고, 200 ms 윈도우와 80 ms 슬라이드로 프레임을 나눈다. 저‑레벨 스펙트럼 중심, 밴드 에너지 비율, 제로 크로싱, 단시간 평균 에너지, 피치 등 12개의 기본 통계량과 침묵 비율, 12개의 MFCC, 11개의 LPCC, 12개의 1차 차분 MFCC, 그리고 F1‑F5 5개의 포먼트를 추출한다. 각 프레임 특성의 평균·분산을 구해 총 76개의 전역 특성을 만든 뒤, 2~98 퍼센타일 클리핑을 적용해 극단값을 완화하고

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기