음악에 맞춘 댄스 비디오 합성을 위한 포즈 퍼셉추얼 손실 모델
본 논문은 음악 신호를 입력으로 인간 골격 시퀀스를 생성하고, 이를 픽셀‑투‑픽셀 기반 네트워크로 실제 영상으로 변환하는 두 단계 파이프라인을 제안한다. 핵심은 노이즈가 많은 OpenPose 데이터에서도 학습이 가능한 포즈 퍼셉추얼 손실과, 로컬‑템포럴 판별기와 글로벌‑콘텐츠 판별기의 이중 GAN 구조이다. 새롭게 설계한 교차‑모달 평가 지표와 사용자 실험을 통해 제안 방법이 리듬·감정에 부합하는 자연스러운 댄스 영상을 생성함을 입증한다.
저자: Xuanchi Ren, Haoran Li, Zijian Huang
본 연구는 “음악에 맞춘 댄스 비디오 자동 생성”이라는 목표 아래, 두 단계의 파이프라인을 설계하고 이를 실험적으로 검증한다. 첫 번째 단계는 음악 신호를 입력으로 인간 골격 시퀀스를 직접 생성하는 모델이다. 입력 음악은 0.1초 길이의 청크로 분할되어 1D 컨볼루션을 거친 뒤, 양방향 2‑layer GRU에 의해 시계열 특성이 추출된다. 이 은닉 상태는 다층 퍼셉트론(MLP) 형태의 포즈 제너레이터에 전달되어, 각 프레임마다 V개의 관절 좌표(x, y)로 구성된 2D 벡터를 출력한다.
핵심 기여는 ‘포즈 퍼셉추얼 손실(Pose Perceptual Loss, PLL)’이다. 기존 연구에서는 L1/L2 손실만을 사용해 관절 좌표의 절대적 차이를 최소화했으나, 이는 관절 간 구조적 관계와 시간적 흐름을 충분히 반영하지 못한다. 저자들은 사전 학습된 ST‑GCN(Spatial‑Temporal Graph Convolutional Network)을 활용해, 생성된 골격과 정답 골격을 각각 네트워크의 중간 레이어에 통과시킨 후 특징 맵을 L1 거리로 매칭한다. 이 과정은 이미지 영역에서 VGG‑19를 이용한 퍼셉추얼 손실과 유사하지만, 직접적인 이미지 변환 없이 그래프 구조 자체를 인식한다는 점에서 효율적이다. PLL은 특히 OpenPose로부터 얻은 잡음이 많은 데이터에서도 관절 배열의 일관성을 유지하도록 돕는다.
생성 모델의 학습 안정성을 높이기 위해 두 종류의 판별기를 도입한다. ‘Local Temporal Discriminator’는 전체 시퀀스를 겹치는 K개의 서브시퀀스로 나누어 1D PatchGAN 형태로 각 구간의 움직임 연속성을 평가한다. 이는 “왼발이 움직일 때 오른발은 정지한다”와 같은 미세한 동작 일관성을 강제한다. ‘Global Content Discriminator’는 음악과 골격을 각각 인코딩한 뒤, self‑attention 메커니즘을 적용해 음악 전체의 리듬·멜로디 정보를 가중합한다. 음악 특징(FM)과 골격 특징(FP)을 채널 차원에서 결합하고, 작은 분류기를 통해 골격이 음악과 조화되는지를 판단한다. 두 판별기는 서로 보완적으로 작동해, 로컬 타임라인의 자연스러움과 글로벌 음악‑동작 조화를 동시에 최적화한다.
전체 손실 함수는 adversarial loss, PLL, L1 재구성 손실, 그리고 Feature‑Matching loss의 가중합으로 구성된다. adversarial loss는 두 판별기의 출력에 기반해 GAN 형태로 정의되며, gradient penalty를 포함해 학습 안정성을 보장한다. L1 손실은 관절 좌표 수준에서 기본적인 재구성을 담당하고, Feature‑Matching loss는 글로벌 디스크리미네이터의 중간 레이어 출력 차이를 최소화해 판별기의 학습을 부드럽게 만든다. PLL의 레이어별 가중치 λ_l은 저자들이 실험적으로 조정한 값으로, 저수준 위치 정밀도와 고수준 동작 패턴 사이의 균형을 맞춘다.
두 번째 단계에서는 생성된 골격 시퀀스를 실제 인물 영상으로 변환한다. 이를 위해 저자들은 기존 pix2pixHD 기반의 이미지‑투‑비디오 변환기를 개선한 모델을 사용한다. 입력으로는 목표 인물의 정적 이미지와 골격 시퀀스가 주어지며, 네트워크는 골격 움직임을 인물 이미지에 자연스럽게 입힌 비디오 프레임을 출력한다. 이 과정은 별도 학습 없이 공개된 “EverybodyDanceNow” 구현을 그대로 활용했으며, 목표 인물의 외형을 유지하면서도 동작을 정확히 전달한다.
데이터 구축 측면에서 저자들은 온라인에 공개된 K‑pop 뮤직비디오와 다양한 장르 영상을 수집하고, OpenPose를 이용해 골격을 추출했다. 전체 데이터는 약 30만 프레임 규모이며, ‘Clean Train’, ‘Noisy Train’, ‘Clean Val’, ‘Noisy Val’ 네 개의 서브셋으로 구분된다. 특히 ‘Noisy’ 서브셋은 OpenPose 오류(관절 누락, 좌표 부정확 등)가 많이 포함돼, PLL이 실제로 노이즈에 강인함을 검증할 수 있는 환경을 제공한다.
평가 방법으로는 세 가지를 제시한다. 첫째, 정량적 지표로는 L2 거리와 PLL 기반의 퍼셉추얼 거리, 그리고 새롭게 제안한 교차‑모달 평가 지표를 사용한다. 교차‑모달 평가는 음악 스펙트럼과 골격 시퀀스의 동시 상관관계를 측정해, 음악과 동작의 유사성을 인간 감각에 가깝게 정량화한다. 둘째, 정성적 평가로는 생성된 비디오와 실제 댄스 비디오를 비교한 시각적 품질 검증을 수행한다. 셋째, 사용자 연구에서는 50명 이상의 피험자가 실제 댄스 영상, 기존 LSTM‑autoencoder 기반 합성 영상, 그리고 제안 모델의 합성 영상을 비교했으며, 제안 모델이 “자연스러움”과 “음악 적합성” 측면에서 85% 이상의 선호도를 얻었다.
결과적으로, 제안된 포즈 퍼셉추얼 손실과 이중 판별기 구조는 노이즈가 많은 실제 데이터에서도 안정적으로 학습이 가능하며, 음악의 리듬·감정에 맞는 자연스러운 댄스 동작을 생성한다. 또한, 교차‑모달 평가 지표와 사용자 실험을 통해 기존 방법보다 현저히 우수한 성능을 입증한다. 저자들은 데이터셋과 코드(https://github.com/xrenaa/Music-Dance-Video-Synthesis)를 공개함으로써, 향후 음악‑비디오 합성 연구의 기반을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기