스위치백 실험을 위한 무조건적 랜덤화 검정 프레임워크

본 연구는 온라인 마켓플레이스, 디지털 광고 등에서 흔히 사용되는 스위치백 실험을 통계적으로 엄밀히 분석하기 위한 새로운 랜덤화 검정 프레임워크를 제시한다. 스위치백 실험은 개별 단위가 아닌 시간에 따라 치료와 통제를 번갈아 적용하는 설계로, 단위‑레벨 무작위화가 불가능하거나 사용자 간 간섭이 피할 수 없을 때 활용된다. 그러나 실제 운영 환경에서는 (1) 실험 기간이 짧고 샘플이 제한적이며, (2) 결과 시계열이 자기상관, 계절성, 그리고 가끔 발생하는 heavy‑tailed 충격을 보이며, (3) 치료 효과가 일정 기간 동안 지속되는 캐리오버와 미래 할당에 영향을 받을 수 있는 안티시페이션 등 복합적인 시간적 간섭을 포함한다. 이러한 특성 때문에 기존의 Fisher Randomization Test(FRT)와 같은 전통적인 무조건적 검정은 “sharp null” 가정이 깨지거나, 비정규적 오류 구조에서 크기 왜곡이 발생한다. 논문은 이러한 문제를 해결하기 위해 두 가지 원시 가정을 도입한다. 첫 번째는 **비예측성(Non‑anticipation)** 으로, 미래의 치료 할당이 현재 결과에 영향을 미치지 않음(잠재 결과는 현재 시점까지의 할당에만 의존). 두 번째는 **유한 캐리오버 horizon m** 으로, 현재 결과는 직전 m+1 기간의 치료 상태에만 의존하고 그 이전의 할당은 무시한다. 이 두 가정은 잠재 결과를 시간 윈도우 w_{t‑m:t} 로 요약하게 하여, 일정 구간 내에서 치료 할당이 변하지 않을 경우 해당 구간의 관측값을 완전히 복원(imputable)할 수 있게 만든다. **조건부 랜덤화 검정(CRT)** 의 핵심 아이디어는 **섹션(section)** 을 미리 정의하고, 실제 할당 경로 W가 섹션 내부에서 일정하면 그 섹션을 focal unit(시간)으로 삼아 검정을 수행하는 것이다. 섹션은 디자인 블록을 연속적으로 병합해 길이가 최소 m+1인 구간으로 만든다. 섹션 경계는 실험 설계 단계에서 고정되며, 할당이 관측된 후 어떤 섹션이 “고정(constant)”했는지를 결정한다. 이렇게 정의된 섹션 집합 S(W)는 할당 경로에 따라 결정되지만, 섹션 경계 자체는 데이터에 의존하지 않으므로 조건부 이벤트 C = S(W)는 **불변성(invariance)** 조건을 만족한다. 즉, 재샘플링 과정에서 할당을 섹션 내부에서만 교환해도 C는 변하지 않는다. 이제 **총 치료 효과 영가설** H_{tot}: Y_t(1_T)=Y_t(0_T) ∀t 를 검정한다. 비예측·캐리오버 가정 하에 이 영가설은 Y_t(1_{m+1})=Y_t(0_{m+1})와 동치가 되며, 섹션 내부에서 치료 라벨을 무작위 교환해도 관측된 결과는 동일하게 유지된다. 따라서 CRT는 (1) 섹션 내부에서 라벨을 재배열해 가능한 할당 집합을 생성하고, (2) 각 재배열에 대해 사전 정의된 테스트 통계량(예: 평균 차이)을 계산한다. 관측된 통계량과 재배열된 통계량들의 분포를 비교해 정확한 유한표본 p‑값을 얻는다. **약한 영가설** 에 대해서는 세션 내 시즌성을 고려한다. 예를 들어, 월요일 vs 화요일 등 같은 세션 내 위치별 평균 효과가 0이라는 가정이다. 여기서는 학생화된 통계량을 사용해 asymptotic 정당성을 확보한다. 논문은 Li & Ding(2017), Wu & Ding(2021) 등에서 제시된 제2모멘트 유한 및 안정화 조건을 만족하면, 섹션 내부에서 재샘플링된 학생화 통계량이 정규분포에 수렴함을 증명한다. **진단 도구** 로는 (1) **캐리오버 검정**: 최대 m을 순차적으로 늘려가며 “at most m‑period carry‑over” 영가설을 테스트하고, FWER를 제어하는 절차를 제시한다. 이를 통해 실제 캐리오버 길이를 추정한다. (2) **비예측성 검정**: 기존의 Pairwise Imputation‑based Randomization Test(PIR‑T)를 스위치백 설계에 맞게 변형해, 미래 할당에 대한 의존성을 탐지한다. 두 진단 모두 유한표본에서 정확한 크기를 유지한다. **검정력 분석** 은 전체 모집단을 **분산 지연 효과(distributed‑lag treatment effects)** 와 **AR(1) 잡음** 으로 모델링한다. 치료 효과는 과거 치료의 가중합 형태이며, 신호‑대‑잡음 비율은 (i) 블록 길이 K, (ii) 버닝인 기간, (iii) 섹션 풀링 전략에 따라 달라진다. 논문은 이러한 파라미터들이 검정력에 미치는 영향을 정량화한 근사식을 제공하고, 설계 단계에서 최적의 블록·섹션 구성을 선택하도록 가이드한다. **시뮬레이션** 은 (a) Gaussian 잡음, (b) heavy‑tailed 충격(t‑분포) 두 경우를 고려한다. 결과는: - 제안 CRT는 명목 수준(5%)에 매우 근접한 크기를 유지한다. - Fisher 검정은 heavy‑tail 상황에서 과도하게 재정의하고, Horvitz‑Thompson 기반 asymptotic 검정은 짧은 T에서 보수적이다. - 검정력 측면에서 Gaussian 상황에서는 asymptotic 검정과 동등하고, heavy‑tail에서는 CRT가 현저히 우수했다. - 캐리오버 진단 CRT는 실제 캐리오버 길이가 증가함에 따라 파워가 상승함을 확인했고, 비예측성 PIR‑T 검정은 가정 위배 시 적절히 거부율을 높였다. **결론** 은 스위치백 실험에서 짧은 기간·소규모 샘플·복잡한 시간 의존성을 동시에 만족하는 검정 방법이 필요함을 강조한다. 제안된 CRT 프레임워크는 설계·분석 단계에서 명확한 가이드라인(섹션 풀링, m 선택, 버닝인 설정 등)을 제공하며, 유한표본에서 정확한 p‑값을 보장한다. 또한 비예측성·캐리오버 진단 도구와 검정력 근사식은 실무자가 실험 설계를 최적화하고 가정 위배 위험을 사전에 평가하도록 돕는다. 마지막으로, 이 접근법은 스위치백 외에도 stepped‑wedge, crossover 등 다른 시간‑인덱스 실험 디자인에도 자연스럽게 확장될 수 있음을 제시한다.

스위치백 실험을 위한 무조건적 랜덤화 검정 프레임워크

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기