인더와일드 감정 인식과 회귀 GAN 기반 AffWildNet

본 논문은 “in‑the‑wild” 환경에서 얼굴 영상의 정서 상태를 연속적인 valence‑arousal 값으로 추정하기 위해, 기존 Aff‑Wild 데이터베이스를 확장한 507,208 프레임 규모의 신규 데이터셋을 구축하고, 이를 CNN‑M 기반 베이스라인과 회귀 GAN(Regression GAN) 모델에 적용·평가한다. 회귀 GAN은 이미지 생성과 동시에 정서 회귀를 수행하도록 설계되어, 반지도학습(semi‑supervised) 학습 능력…

저자: Alvertos Benroumpi, Dimitrios Kollias

인더와일드 감정 인식과 회귀 GAN 기반 AffWildNet
본 논문은 “in‑the‑wild” 환경에서 얼굴 영상으로부터 연속적인 정서 상태를 추정하는 문제에 대한 종합적인 연구를 제시한다. 서론에서는 기존 정서 인식 연구가 실험실 환경에 국한돼 왔으며, 카테고리 기반 감정 분류가 감정의 연속성을 포착하지 못한다는 점을 지적하고, 2‑차원 valence‑arousal 공간을 활용한 차원적 접근의 필요성을 강조한다. 이어서, 주요 목표로는 (1) 기존 Aff‑Wild 데이터베이스를 확장한 새로운 대규모 “in‑the‑wild” 데이터셋 구축, (2) 구축된 데이터를 검증하기 위한 CNN‑M 기반 베이스라인 실험, (3) 이미지 생성과 정서 회귀를 동시에 수행하는 회귀 GAN 모델 설계 및 평가, 로 정의한다. 배경 및 관련 연구 파트에서는 SEMAINE, RECOLA, SEWA, AFEW‑VA 등 다양한 감정 데이터베이스와 그들의 라벨링 방식, 촬영 환경을 비교한다. 특히 Aff‑Wild 데이터베이스는 유튜브에서 “reaction” 영상을 수집해 30시간 이상, 1,200여 명의 피험자를 포함하고 있으며, 연속적인 joystick 라벨링 툴을 사용해 valence‑arousal 값을 제공한다는 점에서 본 연구의 기반이 된다. 신경망 관련 섹션에서는 CNN, RNN, GAN, DCGAN, SSGAN, CapsuleNet 등 최신 딥러닝 구조를 개괄하고, 특히 GAN 기반 반지도학습이 정서 회귀에 어떻게 적용될 수 있는지를 이론적으로 정리한다. 데이터셋 구축 파트에서는 106개의 영상을 웹 크롤링으로 수집하고, 프레임 추출, 얼굴 검출(MTCNN), 정규화, 크기 조정(224×224) 과정을 상세히 기술한다. 라벨링은 기존 Aff‑Wild과 동일한 joystick 기반 연속 어노테이션 툴을 사용했으며, 라벨 품질을 높이기 위해 시계열 스무딩과 클리핑을 적용했다. 최종 데이터셋은 약 48 GB 용량에 150명 이상의 다양한 인물 얼굴을 포함하고, valence‑arousal 값이 전체 2‑D 공간을 고르게 커버한다는 통계적 분석 결과를 제시한다. 신경망 모델 구현 섹션에서는 먼저 CNN‑M을 베이스라인으로 채택한다. 5개의 convolution‑pooling 블록 뒤에 2개의 fully‑connected 레이어와 회귀 헤드를 두어, MSE 손실과 Adam 옵티마이저(learning rate = 1e‑4) 로 30 epoch 학습한다. 검증 결과는 CCC 기준 valence 0.45, arousal 0.41 로 보고된다. 핵심 모델인 Regression GAN은 Generator와 Discriminator가 각각 이미지 생성·진위 판단과 동시에 정서 회귀를 수행하도록 설계되었다. Generator는 100‑dim 노이즈와 조건 라벨을 입력받아 64×64×3 이미지를 출력하고, Discriminator는 이미지와 라벨을 동시에 입력받아 진위 판단(스칼라)과 회귀 출력(2‑dim) 을 반환한다. 손실 함수는 WGAN‑GP 기반 adversarial loss와 L1 회귀 loss 를 α = 1, β = 10 으로 가중합한 복합식이며, 라벨이 없는 실제 프레임을 활용한 반지도학습을 적용한다. 학습 안정성을 위해 Spectral Normalization, Gradient Penalty, 라벨 스무딩, Instance Normalization 등을 도입하였다. 실험 결과, Generator가 생성한 이미지의 FID는 28.3(기존 DCGAN 대비 15% 개선)이며, Discriminator의 회귀 성능은 valence CCC 0.52, arousal CCC 0.48 로 베이스라인 대비 유의미하게 향상되었다. 또한, 반지도학습을 적용했을 때 라벨이 없는 데이터 30%를 추가로 사용했을 경우 회귀 성능이 약 3% 상승하는 것을 확인하였다. 논의 및 결론에서는 데이터 라벨링이 단일 annotator에 의존해 주관적 편향이 존재함을 인정하고, 향후 다중 annotator 기반 라벨링 및 라벨 신뢰도 모델링이 필요함을 제언한다. 또한, 현재 64×64 해상도 이미지 생성은 실제 응용에 제한적이므로 고해상도 GAN(StyleGAN 등)으로 확장하고, 시계열 정보를 보다 효과적으로 활용하기 위해 Transformer‑ 기반 RNN 구조와의 결합을 제안한다. 최종적으로, 구축된 대규모 “in‑the‑wild” 데이터셋과 회귀 GAN 모델은 실시간 감정 인식, 인간‑컴퓨터 상호작용, 정서 기반 콘텐츠 추천 등 다양한 응용 분야에 활용될 수 있음을 강조한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기