음성과 의미를 동시에 고려한 제스처 생성 프레임워크

본 논문은 인간이 말할 때 자연스럽게 동반되는 손·팔 제스처를 인공지능 기반 가상 에이전트와 인간형 로봇에 적용하기 위한 새로운 프레임워크인 “Gesticulator”를 제안한다. 기존의 음성‑기반 혹은 텍스트‑기반 제스처 생성 모델은 각각 비트 제스처(음향에 의존)와 의미 제스처(텍스트에 의존) 중 하나만을 효과적으로 학습했으며, 두 종류를 동시에 생성하는 데 한계가 있었다. 이를 해결하고자 저자들은 음성의 음향 특성(멜‑스펙트로그램)과 의미 특성(BERT 임베딩)을 동시에 입력으로 받아, 연속적인 3D 관절 회전값을 출력하는 딥러닝 모델을 설계하였다. ### 1. 배경 및 관련 연구 - **제스처 종류**: McNeill의 분류에 따라 아이코닉·메타포·디엑틱(의미 기반)과 비트(음향 기반) 제스처가 존재한다. - **기존 접근**: 음향‑전용 모델은 주로 RNN·CNN 기반으로 비트 제스처를 생성했으며, 텍스트‑전용 모델은 의미 매핑을 통해 제스처 클래스를 예측하거나 연속 동작을 생성했다. 다중모달 접근은 드물었고, 대부분은 제한된 제스처 클래스(12종)만을 다루었다. - **연속 동작 생성**: 연속적인 포즈 시퀀스를 직접 예측하는 방식이 최근 주목받고 있으나, 대부분은 사후 smoothing에 의존하거나 자동회귀를 충분히 활용하지 못했다. ### 2. 데이터셋 및 전처리 - **Trinity Gesture Dataset**을 사용했으며, 244 분 분량의 남성 배우가 자유롭게 말하는 영상에서 상체 15관절(원래 69관절 중)만을 추출했다. - **음성**: 64차원 로그‑파워 멜‑스펙트로그램을 0.1 s 윈도우, 0.05 s 홉으로 추출해 20 fps로 정규화. - **텍스트**: Google Cloud ASR로 자동 전사 후 수동 교정, BERT(768차원)로 단어 임베딩, 단어 길이에 따라 프레임 수준으로 복제. filler word와 침묵은 각각 고정 벡터(V_f, V_s)로 대체하고, V_s는 -15로 설정해 다른 특징과 구분. - **모션**: 관절 회전값을 exponential map 형태로 변환 후 20 fps로 다운샘플링, PCA 적용해 12차원으로 차원 축소(92% 분산 유지). ### 3. 모델 구조 1. **입력 인코더**: 음향·텍스트 특징을 각각 완전 연결층으로 차원 축소 후 결합. 2. **컨텍스트 윈도우**: 과거 0.5 s(10프레임)와 미래 1 s(20프레임)의 인코딩을 하나의 긴 벡터로 연결. 3. **핵심 네트워크**: 여러 개의 Fully‑Connected 레이어를 통과시켜 중간 표현을 만든다. 4. **자동회귀 및 FiLM 조건화**: 이전 시점의 예측 포즈를 FiLM 모듈에 입력해 스케일(α)·오프셋(β) 파라미터를 생성하고, 이를 현재 레이어 활성화에 적용해 포즈 연속성을 강화한다. 5. **출력 레이어**: 선형 레이어를 통해 12차원 포즈 벡터를 예측하고, PCA 역변환을 통해 최종 3D 관절 회전값을 복원한다. ### 4. 학습 방법 - **시퀀스 구성**: 70프레임(3.5 s) 시퀀스 중 앞 10·뒤 20프레임은 컨텍스트, 중앙 40프레임을 손실 계산에 사용. - **손실 함수**: 위치 MSE + λ·속도 MSE (λ=0.6). 속도 손실은 예측 속도가 실제 속도와 얼마나 일치하는지를 직접 최소화한다. - **최적화**: SGD와 Adam을 혼합해 100에폭 학습. 초기 자동회귀가 과도하게 포즈에 의존하는 현상을 방지하기 위해 사전 훈련 단계에서 자동회귀를 비활성화했다. ### 5. 실험 및 평가 - **비교 모델**: (a) 오디오‑전용, (b) 텍스트‑전용, (c) 제안된 다중모달 모델. - **객관적 지표**: MSE, DTW(동적 시간 왜곡) 등에서 다중모달 모델이 가장 낮은 오류를 기록. - **주관적 평가**: 인간 평가자를 대상으로 자연스러움, 의미 적합도, 전반적 만족도를 5점 척도로 평가했으며, 다중모달 모델이 평균 4.2점(오디오‑전용 3.5점, 텍스트‑전용 3.7점)으로 가장 높은 점수를 받았다. - **케이스 스터디**: “high”와 같은 의미적 강조 구간에서는 손을 들어올리는 아이코닉 제스처가, 강세가 있는 구간에서는 리듬에 맞춘 비트 제스처가 동시에 나타났다. 기존 단일모달 모델은 이러한 복합 현상을 재현하지 못했다. ### 6. 논의 및 한계 - **손가락 관절 제외**: 데이터 품질 문제로 손가락을 제외했으므로 세밀한 손동작 재현에 한계가 있다. - **자동회귀 의존성**: 초기 학습 시 자동회귀가 과도하게 포즈에만 의존해 정적인 자세에 수렴하는 현상이 있었으며, 이를 사전 훈련으로 완화했지만 여전히 모델 설계에 민감하다. - **언어·문화 제한**: 현재 영어 데이터와 BERT‑English에 최적화돼 있어 다국어 적용 시 추가 학습이 필요하다. ### 7. 향후 연구 방향 1. **고해상도 손가락 모델링**: 손가락 관절을 포함한 3D 포즈 데이터 확보 및 모델 확장. 2. **감정·강조 제어**: 감정 라벨이나 강세 정보를 추가해 제스처 스타일을 조절하는 메커니즘 도입. 3. **실시간 적용**: 경량화와 지연 최소화를 통해 로봇 및 AR/VR 실시간 인터랙션에 적용. 4. **다언어·다문화 확장**: 다국어 BERT와 다문화 제스처 코퍼스를 활용해 보편적인 모델 구축. 5. **생성적 평가**: GAN이나 VAE와 같은 확률적 모델을 결합해 다양하고 창의적인 제스처 생성 가능성 탐색. 결론적으로, Gesticulator는 음향과 의미를 동시에 활용해 비트와 의미 기반 제스처를 모두 재현할 수 있는 최초의 데이터‑주도 연속 제스처 생성 모델이며, 객관·주관 평가 모두에서 기존 단일모달 접근을 능가한다는 점에서 인간‑컴퓨터 인터랙션, 가상 에이전트, 인간형 로봇 분야에 중요한 기술적 진전을 제공한다.

음성과 의미를 동시에 고려한 제스처 생성 프레임워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기