스파스 골격 데이터 향상을 위한 동역학 기반 가우시안 스플래팅과 확률적 토폴로지 그래프 컨볼루션

본 논문은 인간 행동 인식을 위한 스켈레톤 데이터 처리에서 두 가지 근본적인 문제—데이터의 희소성 및 고정된 물리적 토폴로지의 경직성을—지적하고, 이를 해결하기 위한 새로운 프레임워크 KGS‑GCN을 제안한다. 첫 번째 문제는 현재 상용 센서(깊이 카메라, 라이다, IMU 등)가 제공하는 관절 좌표가 시간당 몇 개의 이산 점에 불과하다는 점이다. 이러한 희소 좌표는 빠른 움직임에서 발생하는 미세한 궤적 변화와 순간 속도, 가속도 정보를 손실하게 만든다. 기존 방법들은 좌표 자체를 직접 피처로 사용하거나, RNN·CNN 기반 시계열 모델에 입력해 왔지만, 이들은 관절 간의 비유클리드 구조와 동역학적 불확실성을 충분히 포착하지 못한다. 두 번째 문제는 스켈레톤을 그래프 형태로 모델링할 때 물리적 연결(예: 팔‑손, 무릎‑발)만을 고정된 인접 행렬로 사용한다는 점이다. 최근 적응형 토폴로지 학습이 제안되었지만, 그 가중치는 네트워크 파라미터와 동시에 학습되며 통계적 해석이 어려워 토폴로지 망각이나 불안정성을 초래한다. KGS‑GCN은 이러한 한계를 동시에 극복한다. 핵심 구성 요소는 다음과 같다. 1. **동역학‑구동 가우시안 스플래팅 모듈(KGSM)** - 입력: 각 프레임의 관절 좌표 \( (x, y) \)와 순간 속도 벡터 \( \mathbf{v} \) (시간 차분으로 계산). - 각 관절을 평균 \(\mu = (x, y)\)와 공분산 \(\Sigma\)를 갖는 2D 가우시안으로 매핑한다. 여기서 \(\Sigma\)는 속도 크기 \(||\mathbf{v}||\)와 방향 \(\theta\)에 따라 비등방성으로 정의된다: \(\Sigma = R(\theta) \begin{pmatrix}\sigma_{\parallel}^2 & 0 \\ 0 & \sigma_{\perp}^2\end{pmatrix} R(\theta)^{\top}\), \(\sigma_{\parallel}\)는 속도 방향으로, \(\sigma_{\perp}\)는 그와 직교하는 방향으로 설정된다. - 이렇게 만든 가우시안 프리미티브를 차별화 가능한 레이아스터(예: Gaussian splatting rasterizer)를 통해 다중 뷰(전면, 측면, 상단) 히트맵으로 렌더링한다. 결과 히트맵은 연속적인 확률 밀도 형태이며, 관절의 움직임 방향·속도가 시각적 밝기·형태 변형으로 자연스럽게 반영된다. - 이 과정은 미분 가능하므로 전체 네트워크와 end‑to‑end 학습이 가능하며, 스켈레톤 시퀀스를 시공간적 연속 신호로 변환한다. 2. **확률적 토폴로지 구축** - 각 관절을 가우시안 분포 \(\mathcal{N}(\mu_i, \Sigma_i)\) 로 모델링한 뒤, 두 관절 \(i, j\) 사이의 Bhattacharyya 거리 \(D_{B}(i,j)\) 를 계산한다. 이는 두 분포의 평균 차와 공분산 겹침을 동시에 고려하는 통계적 유사도 지표이다. - 거리값을 정규화하고, \(\exp(-\alpha D_{B}(i,j))\) 형태의 유사도 행렬을 사전 인접 행렬 \(A^{\text{prior}}\) 로 사용한다. 여기서 \(\alpha\)는 스케일 파라미터이며, 학습 과정에서 조정 가능하다. - 물리적 연결을 나타내는 고정 인접 행렬 \(A^{\text{phys}}\) 와 합성하여 최종 인접 행렬 \(A = \lambda A^{\text{phys}} + (1-\lambda) A^{\text{prior}}\) 로 만든다. 이렇게 하면 물리적 구조와 데이터‑드리븐 장거리 관계가 동시에 반영된다. 3. **시각적 컨텍스트 게이팅** - KGSM에서 생성된 히트맵 피처 \(F_{\text{vis}}\) 를 그래프 합성곱 레이어의 메시 전달 단계에 게이트로 삽입한다. 구체적으로, 각 레이어의 노드 피처 \(H^{(l)}\) 에 대해 \(g = \sigma(W_g F_{\text{vis}} + b_g)\) 를 계산하고, \(H^{(l+1)} = g \odot \text{GCN}(H^{(l)}, A)\) 로 업데이트한다. 여기서 \(\sigma\)는 시그모이드, \(\odot\)는 원소별 곱이다. - 이 메커니즘은 시각적 히트맵이 강조하는 영역(예: 빠른 움직임이 있는 관절)과 그래프 연산을 동기화시켜, 중요한 동역학 정보를 그래프 레이어가 더 크게 활용하도록 만든다. 4. **실험 및 결과** - NTU‑RGB+D 60/120, Kinetics‑Skeleton, Northwestern-UCLA 등 3개 대규모 벤치마크에서 기존 최첨단 모델(ST‑GCN, 2s‑AGCN, Shift‑GCN, CTR‑GCN, PoseFormer 등) 대비 평균 2.3%~4.1% 정확도 향상을 달성했다. 특히 저프레임 레이트(10 fps 이하)와 저해상도(좌표 잡음이 큰) 상황에서 성능 격차가 6% 이상으로 크게 나타났다. - Ablation study에서는 (1) KGSM만 사용했을 때와 (2) 확률적 토폴로지만 사용했을 때 각각 1.5%~2.0%의 개선을 보였으며, 두 요소를 결합하고 시각적 게이팅을 추가했을 때 최종 성능이 최고치에 도달함을 확인했다. - 또한, Bhattacharyya 거리 기반 토폴로지는 학습 초기에 명확한 클러스터링 형태를 보였으며, 시각적 해석을 통해 “팔‑손” 사이의 물리적 연결 외에 “양쪽 다리‑몸통” 간의 장거리 상관관계가 강화되는 것을 관찰했다. 5. **의의 및 한계** - KGS‑GCN은 스켈레톤 데이터를 “불확실성을 내포한 연속 확률 필드”로 변환함으로써, 기존 이산 좌표가 놓치던 동역학 정보를 복원한다. - 확률적 토폴로지는 통계적 근거를 제공해 토폴로지 학습의 해석 가능성을 크게 높이며, 물리적 연결과 데이터‑드리븐 연결을 조화롭게 결합한다. - 현재 구현은 2D 가우시안을 사용했으며, 3D Gaussian Splatting을 적용하면 더욱 풍부한 공간 정보를 활용할 수 있다. 또한, 실시간 적용을 위해 렌더링 비용을 경량화하는 연구가 필요하다. 요약하면, KGS‑GCN은 동역학‑구동 가우시안 스플래팅, 확률적 토폴로지, 시각‑컨텍스트 게이팅이라는 세 가지 혁신을 통해 스켈레톤 기반 행동 인식의 핵심 제약을 근본적으로 해소하고, 저품질 센서 데이터에서도 강인한 성능을 입증한 차세대 프레임워크이다.

스파스 골격 데이터 향상을 위한 동역학 기반 가우시안 스플래팅과 확률적 토폴로지 그래프 컨볼루션

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기