최근접 이웃 분류기의 최적 이웃 수 선택에 관한 이론과 실천

본 논문은 비모수 분류 방법 중 가장 직관적이면서도 널리 사용되는 k‑최근접 이웃(k‑NN) 규칙의 핵심 파라미터인 이웃 수 k의 선택 문제를 체계적으로 다룬다. 저자들은 먼저 훈련 표본의 크기를 확률적 모델과 고정 모델로 구분한다. 확률적 모델은 포아송 프로세스를 기반으로 하며, 전체 표본 수 T가 포아송(μ+ν) 분포를 따른다. 각 표본은 사전 확률 μ/(μ+ν)와 ν/(μ+ν)에 비례해 X와 Y 두 모집단 중 하나에 할당된다. 반면 이항 모델은 T를 고정하고, 같은 비율로 표본을 할당하는 조건부 모델이다. 두 모델은 표본 크기의 불확실성을 다르게 반영하지만, 1차 근에서 위험과 후회가 동일함을 증명한다. 논문의 핵심 이론은 위험 차이의 정확한 2차 전개에 있다. 가정 (2.3)–(2.5)에서는 두 밀도 f와 g가 두 번 연속 미분 가능하고, 경계면 S={z:ρ(z)=½}가 (d−1) 차원의 매끄러운 곡선(또는 면)임을 전제한다. 여기서 ρ(z)=p f(z)/(p f(z)+(1−p) g(z))는 사전 가중치가 반영된 사후 확률이다. 이러한 가정 하에, k‑NN 분류기의 위험은 베이즈 위험과 다음과 같이 차이가 난다. Risk_{k‑NN} − Risk_{Bayes}=C₁·k^{−1}+C₂·(k/ν)^{4/d}+o(k^{−1}+(k/ν)^{4/d}) (2.8) C₁는 경계면 S 위에서 ‖∇ρ(z)‖의 적분에 비례하고, C₂는 경계면의 곡률과 두 밀도의 2차 미분 항을 포함한다. C₂가 0이면(즉, ρ가 선형) 위험 차이는 단순히 k^{−1}에 의해 지배된다. 일반적인 경우 C₂>0이며, 이는 k가 커질수록 (k/ν)^{4/d} 항이 지배적으로 작용함을 의미한다. 위 식을 최소화하면 최적 이웃 수는 k_{opt} ∝ ν^{4/(d+4)} (※ 상수는 C₁, C₂에 의존) 가 된다. 차원이 높을수록 최적 k는 더 크게 요구되며, 이는 고차원에서 “희소성” 문제를 보완하려는 직관과 일치한다. 위험 감소율은 ν^{−1/(d+4)}이며, 이는 기존에 알려진 k=1 경우의 ν^{−1/2}보다 느리지만, 실제 데이터에서는 k를 적절히 늘림으로써 전체 위험을 크게 낮출 수 있다. 이론적 결과를 실용적인 k 선택 절차로 전환하기 위해, 저자들은 Edgeworth 전개와 부트스트랩 재표본추출을 활용한다. 구체적으로, 관측된 표본 크기와 커널 밀도 추정값을 이용해 C₁과 C₂를 추정하고, 위의 비례식에 대입해 k̂를 계산한다. 이 방법은 기존의 경험적 규칙(k≈√n, k≈n^{2/(d+4)} 등)보다 이론적 근거가 명확하고, 특히 사전 확률이 불균형하거나 데이터가 비대칭적으로 분포된 상황에서 유리하다. 시뮬레이션 연구에서는 1차원부터 5차원까지 다양한 차원과 다양한 밀도 차이를 가진 합성 데이터를 사용하였다. 포아송 모델과 이항 모델 모두에서 위험 차이가 (2.8)식에 잘 맞는 것을 확인했으며, 제안된 k̂가 전체 위험을 최소화함을 보여준다. 또한 실제 데이터 사례로 은행 대출 디폴트 예측 문제를 다루었다. 여기서는 디폴트 고객과 비디폴트 고객의 비율이 크게 차이나는 상황에서, 포아송 모델이 자연스럽게 적용되었으며, 제안된 k̂가 기존 교차검증 기반 k 선택보다 낮은 오류율을 달성하였다. 결론적으로, 이 논문은 k‑NN 분류기의 위험을 정확히 전개함으로써 최적 k를 이론적으로 도출하고, 이를 실용적인 알고리즘으로 구현하는 방법을 제시한다. 포아송과 이항 두 모델 모두에서 1차 근이 동일함을 보였으며, 이는 표본 크기의 불확실성을 고려한 새로운 관점을 제공한다. 향후 연구에서는 다중 클래스, 비유클리드 거리, 그리고 의존 데이터(시계열, 공간 데이터) 등에 대한 확장 가능성을 제시한다.

최근접 이웃 분류기의 최적 이웃 수 선택에 관한 이론과 실천

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기