근사 최단쌍 탐색을 위한 최적 해시 함수

본 논문은 n‑비트 이진 벡터 집합에서 가장 가까운 쌍을 빠르게 찾기 위한 해시 함수 설계 문제를 다룬다. 기존 LSH 연구에서는 Hamming 거리의 경우 n‑차원 큐브를 k개의 좌표만 선택해 투영하는 방법이 가장 간단하고, ρ=1/c 라는 성능 한계를 가진다. 저자들은 이와 대비해 오류 정정 코드의 완전 디코딩 알고리즘을 이용한 해시 h_C 를 정의하고, 코드 C 의 오류 지수 E_C(p)=−(1/n)·log₂P_C(p) 를 분석한다. 여기서 P_C(p) 는 오류 확률 p 로 변형된 벡터가 동일 코드워드로 디코딩될 확률이며, ρ=E_C(p)/R (R=k/n) 로 표현된다. 첫 번째 섹션에서는 문제 설정을 명확히 하고, 오류 모델을 “하나의 원본 x 가 오류 벡터 e 로 변형된 y=x+e” 로 정의한다. 이때 해시 충돌 확률은 p₁≈P_C(p) (근접 경우)와 p₂≈2^{-k} (멀리 떨어진 경우) 로 나타난다. ρ를 최소화하기 위해서는 P_C(p) 를 최대화하는 코드가 필요함을 보인다. 두 번째 섹션에서는 투영 해시를 분석한다. 서브큐브 S (크기 2^{n−k}) 의 거리 분포는 (1+ζ)^{n−k} 로 표현되며, 충돌 확률은 (1−p)^k 로 간단히 계산된다. 정리 1은 p가 2^{-2(n−k)} 이하일 때 서브큐브가 최적임을 증명한다. 이는 에지 이소메트리 부등식에 기반한다. 다음으로 “연결 해시”(concatenated hash)의 성질을 Lemma 3으로 제시한다. 두 해시 h, h' 를 연결하면 새로운 해시의 오류 지수는 두 기존 지수 사이에 위치한다. 따라서 좋은 코드들을 조합해 다양한 (n,k) 쌍에 대해 최적에 근접한 해시를 설계할 수 있다. 세 번째 섹션에서는 완전 코드(Perfect Codes)를 이용한 해시를 검토한다. 바이너리 골레이(

근사 최단쌍 탐색을 위한 최적 해시 함수

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기