스트림에서 최적 분산을 보장하는 VAROPTₖ 샘플링

본 논문은 가중치가 부여된 대용량 스트림에서 제한된 크기 k 의 샘플을 유지하면서, 임의의 하위 집합 합을 추정할 때 평균 분산을 최소화하는 새로운 온‑라인 리저버 샘플링 기법 VAROPTₖ 을 제안한다. VAROPTₖ는 모든 오프라인 k‑샘플링 방법보다 평균 분산이 작으며, 개별 하위 집합에 대한 최악‑케이스 분산도 기존 방법보다 더 강력하게 제한한다. 샘플 업데이트는 O(log k) 시간에 수행되며, 분산 최소화와 병렬/분산 환경에서의 샘플…

저자: Edith Cohen, Nick Duffield, Haim Kaplan

본 논문은 가중치가 부여된 대규모 데이터 스트림에서 제한된 메모리 k (리저버)만을 사용해 임의의 하위 집합 합을 정확히 추정하고자 하는 문제를 다룬다. 전통적인 리저버 샘플링은 스트림을 한 번만 통과하면서 샘플을 유지하지만, 추정 정확도(특히 분산) 측면에서 한계가 있었다. 저자들은 이러한 한계를 극복하기 위해 **VAROPTₖ** 라는 새로운 샘플링·추정 프레임워크를 제안한다. ### 1. 문제 정의 및 목표 - **스트림 모델**: 아이템 i 는 양의 가중치 wᵢ 를 가지고 순차적으로 도착한다. - **리저버**: 최대 k 개의 아이템을 저장하고, 각 저장 아이템에 보정 가중치 bᵢ 를 부여한다. - **추정 목표**: 임의의 집합 I⊆

스트림에서 최적 분산을 보장하는 VAROPTₖ 샘플링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기