내적 유사도 검색을 위한 합성 코드

본 논문은 고차원 대규모 데이터베이스에서 내적(inner‑product) 유사도 기반 최근접 이웃 검색을 효율적으로 수행하기 위한 새로운 압축 코딩 기법을 제안한다. 기존의 근사 최근접 이웃(ANN) 연구는 주로 유클리드 거리나 L₁ 거리와 같은 대칭 거리 함수를 전제로 했으며, 내적은 삼각 부등식이 성립하지 않아 직접적인 양자화·인덱싱이 어려웠다. 이를 극복하기 위해 저자들은 “합성 코드(compositional code)”라는 개념을 도입한다. 핵심 아이디어는 데이터 벡터 x ∈ ℝ^d 를 사전 C 에 포함된 M개의 원소 c_{nm} 의 합 p = ∑_{m=1}^M c_{nm} 으로 근사하고, 각 원소를 선택한 인덱스 y_{nm} 을 순서대로 나열해 M·log K 비트 길이의 짧은 코드로 저장한다. 이렇게 하면 쿼리 q 와 데이터 x 의 내적 ⟨q,x⟩ 을 ⟨q,∑c_{nm}⟩ = ∑⟨q,c_{nm}⟩ 로 변환할 수 있다. 사전 원소와 쿼리 간 내적값을 미리 계산해 두면, 실제 검색 단계에서는 코드에 기록된 M 개의 인덱스만 조회해 O(M) 시간에 근사 내적을 얻을 수 있다. 논문은 세 가지 단계의 모델을 차례로 소개한다. 1. **k‑means 기반 1‑combination** 전통적인 양자화 방식으로, 각 데이터가 하나의 사전 원소에 매핑된다. 코드 길이는 log K 이지만 근사 정확도는 제한적이다. 2. **M‑selection** 동일 사전 C 에서 중복을 허용해 M 개의 원소를 선택한다. 코드 길이는 M·log K 로 증가하지만, 사전 크기는 그대로 유지한다. 이 방식은 단순히 M 번 독립적인 1‑selection을 수행하는 것과 동등하며, 근사 오차가 크게 감소한다. 3. **그룹 M‑selection** 가장 혁신적인 제안으로, M 개의 서로 다른 사전 C₁,…,C_M 을 동시에 학습·선택한다. 각 데이터는 C₁ 부터 C_M 까지 각각 하나씩 선택해 합성한다. 결과적으로 합성 사전의 크기는 K^M 에 달하지만, 코드 길이는 여전히 M·log K 에 불과하다. 이는 “코드 길이는 동일하지만 사전 규모를 기하급수적으로 확장”한다는 구조적 장점을 제공한다. **수학적 정식화** 목표는 전체 데이터 행렬 X ∈ ℝ^{d×N} 와 선택 행렬 B ∈ {0,1}^{(K·M)×N} 에 대해 \

내적 유사도 검색을 위한 합성 코드

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기