고차원 데이터 분포 동등성 검정: k‑최근접 이웃 기반 방법

본 논문은 고차원 데이터 집합 두 개가 동일한 확률분포에서 추출되었는지를 검정하기 위한 새로운 비모수 방법을 제안한다. 연구 배경으로는 고에너지 물리학 등에서 Monte Carlo 시뮬레이션이 실험 데이터와 얼마나 일치하는지를 평가해야 하는 필요성이 있다. 기존의 1차원 검정(KS, AD 등)은 차원이 증가함에 따라 검정력이 급격히 감소하고, 다변량 검정은 계산 복잡도와 차원의 저주 문제에 직면한다. 제안된 방법은 최근접 이웃(k‑NN) 개념에 기반한다. 표본 X₁,…,Xₙ을 한 집합, Y₁,…,Yₘ을 다른 집합이라 할 때, 각 Xₖ에 대해 가장 가까운 이웃을 찾는다. 귀무가설 H₀: F=G가 참이면, 그 이웃이 X에 속할 확률은 (n‑1)/(n+m‑1)이다. 이를 0‑1 변수 Zₖ로 정의하고, 전체 합 Z=∑ₖZₖ는 n개의 독립 이항 시도와 근사한다. 실제로 Zₖ들은 약간의 의존성을 갖지만, 표본이 충분히 크면 무시 가능하다. k‑NN 확장을 통해 Zₖ를 k개의 이웃에 대해 1/0 벡터로 확장하고, 전체 합을 ∑ₖ∑_{i=1}^k Z_{k,i} 로 만든다. 이 합은 nk개의 이항 시도와 근사되며, 성공 확률은 동일하게 (n‑1)/(n+m‑1)이다. 저자는 초기기하 분포와의 차이를 무시하고 이항 근사를 사용한다. 유의 수준을 정확히 맞추기 위해 두 가지 접근법을 제시한다. 첫 번째는 이항 근사를 이용해 p‑값을 직접 계산하는 방법이다. 이 경우 k가 n·m에 비해 너무 크면 실제 1종 오류가 명목값보다 커질 수 있다. 두 번째는 순열 검정이다. X와 Y를 합쳐 무작위로 섞은 뒤 다시 n, m으로 재분할하고 검정을 반복함으로써 귀무분포를 경험적으로 추정한다. 순열 검정은 계산 비용이 크지만 유의 수준을 정확히 보장한다. 시뮬레이션 결과는 다음과 같다. 1차원에서는 uniform

고차원 데이터 분포 동등성 검정: k‑최근접 이웃 기반 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기