한 번의 퍼뮤테이션 해싱을 위한 최적 밀도 보정 기법

본 논문은 기존의 “회전” 기반 밀도 보정 방식이 매우 희소한 데이터에서 랜덤성이 부족해 분산이 크게 증가한다는 점을 지적하고, 동일한 O(d+KL) 연산 복잡도를 유지하면서 분산을 확실히 낮추는 새로운 보정 절차를 제안한다. 이 절차는 빈 빈(bin)들을 채울 때 좌·우 방향을 무작위로 선택함으로써 더 많은 독립성을 부여한다. 이론적 분산 분석과 공개 데이터셋 실험을 통해 제안 방법이 기존 방법보다 정확도가 현저히 향상됨을 입증한다.

저자: Anshumali Shrivastava, Ping Li

본 논문은 대규모 고차원 희소 데이터에 널리 사용되는 Minwise Hashing 기반 Locality Sensitive Hashing(LSH)의 핵심 병목인 해시값 계산 비용을 낮추는 One‑Permutation Hashing(OPH) 기법을 다룬다. OPH는 하나의 무작위 퍼뮤테이션 π를 적용하고, 전체 차원을 k개의 구간(bin)으로 나눈 뒤 각 구간에서 최소 인덱스를 추출해 k개의 해시값을 만든다. 그러나 데이터가 희소하면 많은 구간이 비어(E) 상태가 되며, 이때는 해시값이 정의되지 않아 직접적인 LSH 특성을 만족하지 못한다. 기존 연구

한 번의 퍼뮤테이션 해싱을 위한 최적 밀도 보정 기법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기