대규모 A/B 테스트를 위한 대체 지표 기반 노출 비율 측정

본 논문은 온라인 미디어 플랫폼에서 사용자에게 노출되는 콘텐츠 속성의 비율(Prevalence)을 정확히 측정하면서도 대규모 A/B 실험에 적용 가능한 비용·시간 효율적인 방법을 제시한다. 기존의 고품질 라벨링 방식은 LLM을 이용해 샘플을 라벨링하고, PPSWOR(Probability‑Proportional‑to‑Size Without Replacement) 샘플링과 Hansen‑Hurwitz 추정기를 통해 노출 가중치를 계산한다. 이 방식은 정확도가 높지만, 실험마다 라벨링 작업을 수행하면 비용이 급증하고, 라벨링 파이프라인이 10~24시간 정도 소요돼 실시간 모니터링이 불가능하다. 이를 해결하기 위해 저자들은 “대체 지표 기반 측정”이라는 프레임워크를 고안한다. 핵심 아이디어는 (1) 모델이 출력하는 점수 \( m_{i,k} \) 를 사전에 정의된 버킷 \( b_1,…,b_B \) 에 매핑하고, (2) 전체 트래픽에 대해 한 번만 LLM 라벨링을 수행해 각 버킷‑카테고리 조합에 대한 실제 비율 \( \hat{P}_{k,b} \)을 추정한다. 이 단계는 오프라인에서 대규모 샘플을 사용해 정확히 보정되며, 비용은 한 번의 라벨링 작업에 한정된다. 실험 단계에서는 각 A/B 실험군·대조군의 로그 데이터를 이용해 버킷별 임프레션 비율 \( c_{k,b}(S) \)만을 추출한다. 이후 사전 보정된 \( \hat{P}_{k,b} \)와 결합해 전체 비율을 \( \hat{P}_k(S)=\sum_b c_{k,b}(S)\hat{P}_{k,b} \) 로 계산한다. 이때 버킷별 비율이 독립이라고 가정하고, 분산 전파를 통해 추정 오차를 구한다(식 11). 저자들은 버킷 수를 10개로 설정하고, 각 버킷은 균등 구간(0‑0.1, 0.1‑0.2, …)으로 나누었다. 실험 검증은 두 가지 실제 A/B 테스트에 대해 수행되었다. 실험 A는 두 카테고리 \( k_1, k_2 \) 에 대해 추가 필터링을 적용한 경우이며, 실험 B는 사용자 세그먼트(국가·연령)별로 동일한 필터링 효과를 측정한다. 두 실험 모두에서 (i) 절대 비율, (ii) 실험군‑대조군 Δ가 LLM 기반 기준과 95% 신뢰구간 내에서 일치했으며, 특히 작은 변화(0.3%~1% 수준)도 통계적으로 유의하게 탐지되었다. 비용 측면에서는 라벨링 비용이 실험당 수천 달러에서 수십 달러 수준으로 감소했고, 지연도 실시간 로그 조회 수준으로 단축되었다. 논문은 또한 기존 방법과의 차별점을 강조한다. 기존 히스토리 기반 라벨링은 매 실험마다 동일한 모델 점수 임계값을 사용해 “자기 평가” 오류가 발생할 수 있지만, 대체 지표는 독립적인 LLM 라벨링을 사용해 이러한 편향을 최소화한다. 또한, 버킷‑레벨 비율이 카테고리와 점수 구간에 강하게 의존하고 세그먼트에 대해 상대적으로 안정적이라는 경험적 관찰을 통해 전역 보정값을 재사용함으로써 확장성을 확보한다. 한계점으로는 (1) 버킷 경계 선택이 성능에 미치는 영향, (2) 점수 분포가 급격히 변할 경우 재보정이 필요함, (3) LLM 라벨링 자체의 편향이 버킷 보정에 전이될 가능성 등을 들었다. 향후 연구에서는 동적 버킷링, 다중 모델 앙상블을 통한 보정, 비정형 속성(텍스트, 이미지)에도 적용 가능한 대체 지표 설계가 제안된다. 결론적으로, 이 논문은 비용·시간 효율성을 크게 개선하면서도 정확한 노출 비율 측정을 가능하게 하는 실용적인 프레임워크를 제시하며, 대규모 실험 플랫폼에서의 적용 가능성을 입증한다.

대규모 A/B 테스트를 위한 대체 지표 기반 노출 비율 측정

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기