베이지안 함수 데이터 분석을 위한 MATLAB 툴박스 BFDA

본 논문은 함수 데이터 분석(FDA) 분야에서 아직 충분히 다루어지지 않은 “스무딩 단계”에 베이지안 계층 모델을 적용한 MATLAB 툴박스 BFDA를 제안한다. 기존 FDA 도구들은 주로 개별 함수에 대해 CSS(큐빅 스플라인)나 커널 스무딩을 적용하고, 이후에 평균·공분산을 추정하거나 회귀·주성분 분석을 수행한다. 이러한 접근법은 동일한 분포를 따르는 다수의 함수가 존재함에도 불구하고 개별 스무딩에 의존하기 때문에, 데이터 간의 공유 정보를 활용하지 못해 편향이 발생할 위험이 있다. BFDA는 이러한 한계를 극복하기 위해 “동일한 Gaussian Process(GP) 분포를 공유하는 다중 함수”라는 가정을 명시적으로 모델링한다. 관측 모델은 \(X_i(t)=Z_i(t)+\epsilon_i(t)\) 로 정의하고, \(Z_i(\cdot)\) 를 평균 \(\mu_Z(\cdot)\) 와 공분산 \(\Sigma_Z(\cdot,\cdot)\) 를 갖는 GP로 가정한다. 평균 함수에 대해서는 또 다른 GP 사전 \(\mu_Z|\Sigma_Z\sim GP(\mu_0, c\Sigma_Z)\) 를 두어 데이터가 제공하는 평균 구조를 부드럽게 추정한다. 공분산 함수는 Inverse‑Wishart Process(IWP) \(\Sigma_Z\sim IWP(\delta,\sigma_s^2 A)\) 로 비모수적으로 표현한다. 여기서 \(A\) 는 Matérn 커널(정상성) 혹은 경험적 공분산(비정상성) 중 선택 가능하며, 하이퍼파라미터 \(\delta, \sigma_s^2\) 등은 데이터 기반 경험적 추정값에 맞춰 설정한다. 베이지안 추론은 Gibbs 샘플러 기반 MCMC로 수행된다. 구체적으로는 (1) 함수값 \(Z_i(t)\) 를 다변량 정규조건부분포에서 샘플링, (2) 노이즈 분산 \(\sigma_\epsilon^2\) 를 Inverse‑Gamma 조건부에서 업데이트, (3) 평균 함수 \(\mu_Z\) 를 정규조건부에서 업데이트, (4) 공분산 \(\Sigma_Z\) 를 Inverse‑Wishart 조건부에서 업데이트, (5) IWP 스케일 \(\sigma_s^2\) 를 Gamma 조건부에서 업데이트한다. 각 단계는 닫힌 형태의 조건부분포를 이용하므로 구현이 비교적 간단하고, 수렴 진단은 Gelman‑Rubin PSRF와 피벗 잔차 기반 PDM을 사용한다. 하지만 기본 BHM은 관측 그리드 수 \(p\) 가 커질수록 \(O(np^3m)\) 의 계산 복잡도를 갖는다. 이를 해결하기 위해 BFDA는 BABF(베이지안 근사 by Basis Functions) 옵션을 제공한다. BABF는 데이터 밀도에 따라 작업 그리드 \(\tau\) 를 선택하고, B‑spline 기반 기저함수 \(B(\cdot)\) 로 \(Z_i(\tau)=B(\tau)\zeta_i\) 로 근사한다. 계수 \(\zeta_i\) 에 대해 동일한 계층 모델을 적용하면 차원이 \(p\) 에서 \(K\) (보통 \(K\ll p\)) 로 감소하고, 복잡도는 \(O(nK^3m)\) 로 크게 낮아진다. B‑spline의 knot은 optknt 함수를 이용해 자동으로 최적화되며, 작업 그리드 \(\tau\) 는 데이터 밀도에 따라 백분위수 기반 혹은 균등 간격으로 선택한다. BFDA는 공통 그리드와 비공통(희소) 그리드 모두를 지원한다. 비공통 경우, 각 함수가 서로 다른 시간점에서 측정될 수 있는데, 모델은 풀링 그리드에 대한 잠재 함수와 평균·공분산을 동시에 추정한다. 이는 기존 개별 스무딩 방법이 갖는 “그리드 정렬 필요” 제약을 없애며, 희소 데이터에서도 안정적인 추정이 가능하도록 한다. 실험에서는 (1) 정적 공분산, (2) 비정적 공분산, (3) 공통·비공통 그리드, (4) 고차원( \(p\) 가 1000 이상) 상황을 시뮬레이션하였다. 결과는 다음과 같다. 첫째, BHM/BABF 모두 95% 점별 신뢰구간이 실제 함수와 거의 일치했으며, 평균 함수와 공분산 함수 추정에서도 샘플 공분산 대비 부드럽고 정확한 형태를 복원했다. 둘째, 비정적 공분산을 가진 경우에도 IWP 사전 덕분에 비모수적으로 적절한 비정상성을 포착했다. 셋째, 비공통 그리드 상황에서 40% 데이터가 누락돼도 평균·공분산 추정 정확도가 크게 저하되지 않았다. 넷째, 고차원 데이터에 BABF를 적용했을 때 실행 시간이 크게 단축되면서도 추정 품질은 유지되었다. 마지막으로, BFDA에서 얻은 스무딩 결과를 fdaM 패키지의 함수 선형 회귀에 입력했을 때, 기존 CSS 기반 전처리와 비교해 회귀 계수의 표준오차가 감소하고 예측 정확도가 향상되는 것을 확인하였다. 이는 BFDA가 후속 분석(주성분 분석, 군집, 회귀 등)에도 유용한 전처리 도구임을 시사한다. 결론적으로, BFDA는 (1) 다중 함수의 공동 스무딩과 평균·공분산 동시 추정, (2) 정적·비정적 공분산 및 공통·비공통 그리드 지원, (3) 고차원 데이터에 대한 효율적인 BABF 근사, (4) MCMC 기반 베이지안 추론과 진단 도구 제공이라는 네 가지 핵심 장점을 갖는다. 이러한 특성은 기존 FDA 툴킷이 제공하지 못한 통합적 베이지안 접근을 가능하게 하며, 실제 연구 현장에서 함수 데이터 전처리와 후속 분석을 모두 향상시킬 수 있다.

베이지안 함수 데이터 분석을 위한 MATLAB 툴박스 BFDA

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기