밀리 데이터 복원을 위한 연속 시퀀스 재구성 방법

본 논문은 다차원 실수 벡터 시퀀스에서 일부 값이 누락된 상황을 포괄적으로 다루는 새로운 재구성 프레임워크를 제시한다. 저자는 먼저 문제 정의를 명확히 한다. 데이터 집합 {tₙ}ₙ=1ⁿᴺ 은 D 차원의 실수 벡터이며, 각 벡터는 관측 변수와 누락 변수로 구분된다. 누락 패턴은 마스크 행렬 M 으로 표현되며, 이는 시점마다 달라질 수 있다. 전통적인 회귀나 매핑 근사는 누락 패턴이 일정할 때(즉, 열형 마스크)만 적용 가능하고, 그 경우 관측 변수 X 로부터 누락 변수 Y 를 일대일 혹은 다대일 함수로 추정한다. 그러나 실제 응용에서는 누락 패턴이 시점마다 변하고, 관측 변수에 대한 조건부 분포 p(Y|X) 가 다값(다중 모드) 구조를 가질 때가 많다. 예를 들어, 로봇 팔의 역기구학에서는 말단 위치가 동일해도 여러 관절 각도 조합이 존재한다. 이를 해결하기 위해 저자는 두 가지 중복성 가정을 도입한다. 첫 번째는 “벡터 중복성”으로, 데이터가 저차원 매니폴드 M (차원 L) 에 존재한다는 전제다. 즉, 관측된 일부 변수만으로도 누락 변수를 강하게 제한할 수 있다. 두 번째는 “시퀀스 중복성”으로, 연속적인 시점의 벡터들이 서로 가깝다는 연속성 가정이다. 이 두 가정을 정량화하기 위해 공동 확률 밀도 함수 p(t) 를 모델링한다. 구체적인 모델로는 Generative Topographic Mapping(GTM)을 선택한다. GTM은 잠재공간 Z (차원 C) 에서 고차원 데이터 T 로 매핑하는 비선형 함수 f(z;W) 를 정의하고, 각 잠재점에 대해 Gaussian 컴포넌트를 배치한다. 결과적으로 전체 데이터는 Gaussian Mixture Model 형태로 표현되며, EM 알고리즘을 통해 파라미터를 학습한다. 학습된 모델을 이용해 각 시점 n 에서 관측 변수 xₙ (집합 Pₙ) 가 주어지면, 조건부 분포 p(yₙ|xₙ) 를 계산한다. 이 분포는 다중 모드를 가질 수 있는데, 저자는 모든 모드를 후보 복원으로 채택한다. 모드 탐지는 Gaussian Mixture 의 각 컴포넌트에 대해 조건부 평균과 공분산을 구하고, 이를 통해 국소적인 모드 위치를 찾는 방식으로 구현한다. 이렇게 하면 각 시점마다 Kₙ 개의 후보 yₙ^{(k)} 가 생성된다. 다음 단계는 전역 최적화이다. 후보 복원들 사이에 연속성 제약을 비용 함수로 정의한다. 구체적으로, 두 연속 시점 n-1, n 사이의 전이 비용은 후보 y_{n-1}^{(i)} 와 y_{n}^{(j)} 사이의 거리(예: 유클리드 거리) 혹은 물리적 제약(예: 관절 각도 변화 제한) 으로 측정된다. 전체 시퀀스 비용은 이러한 전이 비용들의 합이며, 목표는 최소 비용 경로를 찾는 것이다. 이를 위해 동적 프로그래밍(DP) 알고리즘을 적용한다. DP는 각 시점의 후보 집합을 레이어로 생각하고, 이전 레이어에서 현재 레이어로의 최소 비용을 누적하면서 최적 경로를 역추적한다. 이 과정은 Viterbi 알고리즘과 동일한 복잡도 O(N·K²) (N 은 시점 수, K 는 평균 후보 수) 를 가진다. 실험은 두 가지 도메인에서 수행된다. 첫 번째는 2차원 매니폴드 위에 3차원 관측값을 생성하고, 무작위로 누락을 삽입한 toy dataset 이다. 여기서 제안 방법은 누락된 차원을 정확히 복원하고, 연속성을 유지하는 데 성공한다. 두 번째는 6자유도 로봇 팔의 역기구학 문제이다. 관절 각도(6차원)와 말단 위치(3차원) 사이의 매핑은 다값이며, 관절 각도 중 일부가 누락된 상황을 시뮬레이션한다. 기존의 단일값 회귀(신경망)와 비교했을 때, 제안 방법은 평균 제곱 오차가 크게 감소하고, 물리적으로 불가능한 급격한 관절 변화를 방지한다. 논문의 기여는 다음과 같다. (1) 조건부 분포의 모든 모드를 후보로 활용해 다값 매핑을 자연스럽게 다루는 방법론, (2) 저차원 매니폴드와 연속성이라는 두 중복성을 결합한 전역 최적화 프레임워크, (3) GTM 기반 확률 모델을 통해 데이터의 구조적 특성을 정량화하고, 이를 누락 복원에 직접 연결한 점. 또한, 누락 패턴이 시점마다 달라지는 일반적인 상황에서도 적용 가능하다는 실용적 장점을 제공한다. 한계점으로는 후보 모드 수가 많아질 경우 DP의 계산량이 급증한다는 점이며, 이를 해결하기 위한 후보 축소 기법이나 근사 DP가 향후 연구 과제로 제시된다.

밀리 데이터 복원을 위한 연속 시퀀스 재구성 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기