비지도 K 최근접 이웃 회귀

본 논문은 고차원 데이터의 구조적 패턴을 저차원 잠재 공간에 비지도적으로 매핑하기 위한 새로운 차원 축소 기법, ‘비지도 K 최근접 이웃 회귀(UNN)’를 제안한다. 기존 차원 축소 방법들은 주성분 분석(PCA)과 같은 선형 모델, 커널 PCA, Isomap, LLE, 비지도 커널 회귀(UKR) 등으로 크게 두 갈래로 나뉜다. 이들 중 대부분은 복잡한 커널 연산이나 고차원 행렬 분해에 의존해 계산 비용이 O(N³) 혹은 O(N²) 수준에 머무른다. 반면, K‑NN 회귀는 단순히 최근접 이웃의 평균을 취하는 비모수적 방법으로, 계산량이 O(N·K·d) 정도에 불과하다. 저자는 이러한 K‑NN 회귀를 ‘역방향’으로 적용해, 잠재 변수 X가 주어졌을 때 고차원 관측 Y를 재구성하는 함수를 정의하고, X를 최적화함으로써 차원 축소를 수행한다. UNN의 핵심 수식은 다음과 같다. f_UNN(x;X)= (1/K)∑_{i∈N_K(x,X)} y_i E(X)= (1/N)‖Y‑f_UNN(X)‖_F² 여기서 N_K(x,X)는 잠재 공간 상에서 x와 가장 가까운 K개의 잠재 점들의 인덱스를 의미한다. 목표는 E(X)를 최소화하는 X를 찾는 것이며, 이는 ‘데이터 공간 재구성 오차(DSRE)’를 최소화한다는 의미다. 잠재 공간 토폴로지를 고정하고, 삽입 순서를 탐색하는 두 가지 탐욕적 알고리즘을 제시한다. 1) UNN‑1 (전역 삽입) : 현재까지 삽입된 N̂ 개의 잠재 점 사이의 모든 N̂+1 가능한 위치에 새 데이터를 삽입해 DSRE를 계산한다. 최소 DSRE를 보이는 위치에 삽입하고, 이를 반복한다. 시간 복잡도는 O(N·K·d)이며, 실제 연산량은 N·K·d + N·K·d ≈ 2·N·K·d 정도다. 2) UNN‑2 (국부 삽입) : 새 데이터 y와 가장 가까운 이미 삽입된 점 y*를 찾고, y*의 양쪽 두 위치만 평가한다. 거리 계산에 N·d 연산이 추가되지만, DSRE 평가 횟수가 2로 제한돼 전체 복잡도는 O(N·d + 2·K·d)≈O(N)이다. 실험에서는 N=1000, K=10, d=100인 경우 UNN‑1이 1,001,000 연산을, UNN‑2가 102,000 연산을 소요했다. 실험은 세 가지 데이터셋에 대해 수행되었다. ① 2‑D S곡선(N=200) – UNN‑1과 UNN‑2 모두 색상(인접점) 정렬이 잘 이루어졌으며, UNN‑1이 약간 낮은 DSRE를 기록했다. ② 3‑D S곡선(N=500) 및 구멍이 있는 변형(N=400) – K=10일 때 UNN‑1이 DSRE 101.9, 139.0을, UNN‑2가 140.4, 145.3을 달성했다. LLE와 비교했을 때 두 UNN 모두 더 낮은 오차를 보였다. ③ USPS 손글씨(2와 5, 각 100개, 256 차원) – 1‑차원 잠재 공간에 14번째마다 샘플을 시각화했을 때, 유사한 숫자들이 연속적으로 배치되어 의미 있는 순서를 형성했다. DSRE는 초기값(≈200) 대비 UNN‑2가 70~150 수준으로 크게 감소했다. 전체 DSRE 비교표에서는 UNN‑1이 대부분 경우에서 최저값을 기록했으며, UNN‑2는 약간 높은 DSRE지만 실행 속도가 빠른 장점을 보였다. K값을 증가시킬수록 DSRE가 상승하는 경향이 관찰되었으며, 이는 K가 클수록 평균화가 과도해 세부 구조가 손실되기 때문이다. 논문의 결론은 UNN 회귀가 고차원 데이터를 빠르게 저차원에 매핑하면서도 데이터의 내재적 순서를 보존한다는 점이다. 현재는 1‑차원 격자에 한정돼 있어 복잡한 토폴로지를 표현하기 어려우며, 탐욕적 삽입이 전역 최적해를 보장하지 못한다는 한계가 있다. 향후 연구 방향으로는 2‑차원 이상의 격자 삽입, 전역 최적화를 위한 메타휴리스틱(예: 시뮬레이티드 어닐링, 유전 알고리즘) 도입, 그리고 잠재 공간 확장을 억제하기 위한 정규화 항 설계가 제시된다.

비지도 K 최근접 이웃 회귀

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기