유사도 선택 카디널리티 추정의 단조성 보장 딥러닝 접근법

본 논문은 거리 임계값이 증가함에 따라 카디널리티가 단조적으로 증가하도록 보장하면서, 다양한 데이터 타입과 거리 함수에 적용 가능한 딥러닝 기반의 카디널리티 추정 프레임워크를 제안한다. 원본 데이터와 임계값을 해밍 공간으로 변환한 뒤, 변분 오토인코더와 거리 임베딩을 활용한 회귀 모델로 증분 예측을 수행한다. 동적 손실 가중치와 증분 학습 전략을 통해 정확도와 학습 효율을 높였으며, 실험을 통해 기존 방법 대비 높은 정확도와 빠른 추정 속도를 …

저자: Yaoshu Wang, Chuan Xiao, Jianbin Qin

**1. 연구 배경 및 문제 정의** 유사도 선택은 데이터베이스에서 “거리 f(x, y) ≤ θ”인 레코드 y를 찾는 연산으로, 이미지 검색, 엔터티 매칭, 데이터 통합 등 다양한 응용 분야에서 핵심 역할을 한다. 쿼리 옵티마이저는 이 연산의 비용을 추정하기 위해 카디널리티(결과 레코드 수)를 정확히 예측해야 하는데, 전통적인 히스토그램·샘플링 기반 방법은 고차원·대규모 데이터와 복잡한 거리 분포에 취약하다. 또한, 카디널리티는 임계값 θ가 증가함에 따라 반드시 단조적으로 증가해야 하는데, 기존 머신러닝 회귀 모델은 이 제약을 보장하지 못한다. **2. 제안 프레임워크 개요** 논문은 두 단계로 구성된 프레임워크를 제안한다. - **특징 추출(Feature Extraction)**: 원본 레코드 x와 임계값 θ를 입력받아, 거리 함수 f의 의미를 해밍 거리로 근사하는 이진 벡터 x̂와 정수형 임계값 τ를 생성한다. 이 과정은 데이터 타입(이미지, 텍스트, 문자열 등)과 거리 함수(Jaccard, edit, Euclidean 등)에 독립적이며, 모든 입력을 동일한 차원의 이진 공간에 매핑한다. - **증분 회귀(Incremental Regression)**: 변분 오토인코더(VAE)를 사용해 희소한 이진 벡터 x̂를 밀집된 잠재 표현 z로 압축하고, 거리값 i에 대한 임베딩 e_i를 추가한다. 최종 입력 z_i =

유사도 선택 카디널리티 추정의 단조성 보장 딥러닝 접근법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기