반응형 청자 동작 생성 ReactMotion 연구
ReactMotion은 화자의 발화(텍스트·오디오·감정)를 입력으로 청자의 자연스러운 몸동작을 생성하는 새로운 과제를 제시한다. 저자들은 다중 반응을 포함한 대규모 데이터셋 ReactMotionNet을 구축하고, 선호도 기반 평가와 다중 모달 통합 생성 모델을 제안한다. 실험 결과, 제안 모델은 기존 검색·LLM 파이프라인을 능가하며 적절하고 다양성 있는 청자 동작을 생성한다.
저자: Cheng Luo, Bizhu Wu, Bing Li
**1. 연구 배경 및 동기**
인간‑컴퓨터 대화 시스템에서 화자와 청자의 비언어적 교류는 대화의 자연스러움과 몰입도를 크게 좌우한다. 기존 연구는 주로 화자‑화자 간의 텍스트‑투‑음성, 텍스트‑투‑동작, 혹은 오디오‑투‑음악·제스처 생성에 초점을 맞추었으며, 청자의 몸짓을 별도로 모델링하는 경우는 드물었다. 청자는 화자의 발화 내용, 억양, 감정 상태 등을 종합해 ‘고개 끄덕임’, ‘손 흔들기’, ‘뒤로 물러서기’ 등 다양한 반응을 보인다. 이러한 반응은 일대다 관계를 가지며, 동일한 발화에 대해 여러 적절한 동작이 존재한다. 따라서 청자 동작 생성은 (i) 다중 가능한 정답을 다루어야 함, (ii) 화자‑청자 간의 비언어적 상호작용을 이해해야 함, (iii) 적절성 평가가 기존 절대 오차 지표로는 충분치 않다는 세 가지 핵심 난제를 안고 있다.
**2. 데이터셋 구축 – ReactMotionNet**
저자들은 기존 3D 인간 동작 데이터셋(HumanML3D)을 활용해 비용 효율적인 파이프라인을 설계하였다.
- *Step 1: 청자 반응 모션 선정* – HumanML3D의 캡션을 LLM(예: ChatGPT‑o1, o3‑mini)으로 필터링해 ‘대화‑관련’ 동작(예: 손을 흔들기, 뒤로 물러서기 등)만을 추출한다.
- *Step 2: 역방향 화자 조건 생성* – 각 청자 모션에 대해 LLM을 이용해 가능한 화자 텍스트와 감정 라벨을 생성하고, 최신 TTS(GPT‑4o mini)로 오디오를 합성한다. 감정 일관성을 위해 Hume AI 감정 인식기를 적용한다.
- *Step 3: 데이터 정제* – 화자‑청자 캡션 쌍에 대해 Qwen‑3‑235B 등 다중 LLM을 활용해 대화 적합성 점수를 부여하고, NLI 모델로 논리적 일관성을 검증한다. 상위 점수의 청자 동작만을 남긴다.
- *Step 4: 선호 라벨링* – 최종 후보를 금(Gold), 은(Silver), 부정(Negative) 3단계로 라벨링한다. 라벨링 기준은 ‘의미 적합성’과 ‘대화 가능성’ 두 축을 가중합한 점수이며, 사전 정의된 임계값을 사용한다.
결과적으로 151 328개의 (화자 발화, 청자 동작) 쌍이 확보되었으며, 8 298개의 고유 발화와 2 029개의 고유 청자 동작이 포함된다. 평균 18.24개의 후보 동작이 한 발화에 매핑되어 일대다 특성을 충분히 반영한다. 라벨 분포는 금 9 307, 은 34 196, 부정 107 825로, 적절성의 연속성을 학습·평가에 활용한다.
**3. 모델 설계 – ReactMotion**
ReactMotion은 다중 모달 입력을 하나의 시퀀스로 통합하는 Seq2Seq 구조이다.
- *토크나이저* – 텍스트, 오디오, 감정, 모션 각각에 특화된 토크나이저를 적용해 이산 토큰 집합을 만든다. 예를 들어, ``와 `` 토큰이 존재한다.
- *인코더* – T5‑Encoder에 크로스‑어텐션을 적용해 텍스트·오디오·감정 토큰을 동시에 처리한다. 이는 화자의 언어적 의미와 음성적 억양, 감정 정보를 융합한다.
- *디코더* – 동일한 T5‑Decoder를 사용해 모션 토큰 시퀀스를 autoregressive하게 생성한다. 디코더는 인코더 출력과 이전 모션 토큰을 조건으로 삼아 시간적 연속성을 유지한다.
- *학습 목표* – 기본 MLE 손실 외에 선호 기반 손실(preference loss)을 도입한다. 같은 화자 발화에 대해 금·은·부정 라벨을 가진 후보들을 쌍(pairwise)으로 비교해, 금 > 은 > 부정 순으로 스코어를 높이는 랭킹 손실을 적용한다. 또한 KL‑divergence 정규화를 통해 다양성을 촉진한다.
**4. 평가 프로토콜**
전통적인 MPJPE, L2 거리 등 절대 오차 지표는 단일 정답에만 의미가 있다. 저자들은 ‘tier‑aware ranking’이라는 상대적 평가 방식을 도입했다. 같은 발화에 대해 생성된 N개의 후보 동작을 금·은·부정 라벨에 따라 순위 매기고, 금 등급을 차지한 비율(Recall@1)과 전체 순위 평균을 측정한다. 인간 평가 실험에서는 3인 평가자가 ‘적절성’과 ‘자연스러움’을 5점 척도로 평가했으며, 자동화된 선호 점수와 높은 상관관계를 보였다.
**5. 실험 결과**
- *베이스라인* : (i) 가장 유사한 동작을 검색하는 Retrieval, (ii) LLM‑driven 텍스트‑투‑동작 파이프라인, (iii) 단일 모달 T5 모델.
- *성능* : ReactMotion은 금 등급 Recall@1에서 Retrieval 대비 12.4%p, LLM 파이프라인 대비 9.7%p 상승했다. 은·부정 등급에서도 전반적으로 높은 순위를 유지했다.
- *다양성* : KL‑divergence 정규화 덕분에 동일 발화에 대해 평균 4.2개의 서로 다른 동작을 생성했으며, 이는 베이스라인 대비 35% 향상된 수치다.
- *인간 평가* : 적절성 점수에서 평균 4.3/5(ReactMotion) vs 3.6/5(Retrieval) vs 3.8/5(LLM 파이프라인)으로, 청자 반응의 ‘대화 적합성’이 크게 개선된 것을 확인했다.
**6. 논의 및 한계**
ReactMotion은 데이터 구축에 LLM·TTS·감정 인식기를 폭넓게 활용해 비용 효율성을 확보했지만, 합성된 화자 음성의 품질과 감정 일관성에 아직 한계가 있다. 또한 현재는 3D 전신 모션을 중심으로 하며, 얼굴 표정·시선·미세 손동작 등 미세 비언어적 요소는 포함되지 않는다. 실시간 대화 시스템에 적용하려면 추론 속도와 메모리 효율성 개선이 필요하다.
**7. 향후 연구 방향**
- 실제 촬영된 화자‑청자 쌍을 이용한 도메인 적응 및 미세 조정.
- 멀티모달 감정 인식(텍스트·음성·시각)과 문화적 맥락을 반영한 고차원 선호 모델.
- 실시간 스트리밍 환경에서의 저지연 생성 및 사용자 맞춤형 반응 제어.
- 얼굴·시선·손가락 움직임을 포함한 전신·세부 동작 통합 모델 확장.
**결론**
본 논문은 ‘청자 반응 동작 생성’이라는 새로운 과제를 정의하고, 다중 라벨 데이터셋과 선호 기반 평가·학습 프레임워크를 제시함으로써 비언어적 대화 인터페이스 연구에 중요한 전진을 이루었다. ReactMotion은 기존 방법 대비 적절성, 다양성, 자연스러움 모두에서 우수한 성능을 보이며, 향후 인간‑컴퓨터 상호작용 시스템에 실시간 반응 생성 모듈을 도입하는 기반이 될 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기