방향 안정성을 이용한 적응형 실험의 효율적 추정

본 논문은 적응형 데이터 수집(예: 밴딧) 환경에서 스칼라 경로미분 가능 목표에 대한 추정을 다룬다. 기존의 전역 설계 안정성 조건보다 약한 ‘방향 안정성’을 도입해, i.i.d. 상황에서 효율적이던 추정량이 적응형 수집 데이터에서도 비편향·정규성을 유지하고 반파라메트릭 효율성을 달성함을 보인다. LinUCB에 대한 적용을 통해 실제 알고리즘에서도 조건을 검증한다.

저자: Zikai Shen, Houssam Zenati, Nathan Kallus

이 논문은 적응형 데이터 수집, 특히 컨텍스트 밴딧과 같은 온라인 의사결정 시스템에서 스칼라 파라메트릭 목표에 대한 통계적 추정과 효율성을 다룬다. 전통적인 i.i.d. 가정 하에서는 OLS나 일반적인 one‑step 추정기가 반파라메트릭 효율 경계를 달성하지만, 적응형 정책에 의해 데이터가 의존적으로 생성되면 이러한 결과가 깨질 수 있다. 기존 문헌은 전체 설계 행렬 Σ̄_T가 일정 비율로 수렴하는 전역 안정성(full‑matrix stability)을 가정했으며, 이는 탐색을 최소화하려는 밴딧 정책과 충돌한다. 저자들은 이러한 한계를 극복하기 위해 “방향 안정성(directional stability)”이라는 목표‑특정 안정성 개념을 도입한다. 논문은 먼저 데이터 생성 모델을 정의한다. 각 시점 t에서 컨텍스트 X_t, 행동 A_t, 보상 Y_t가 관측되며, 행동은 과거 히스토리 Ō_{t‑1}에 의존하는 로깅 정책 g_t에 의해 선택된다. 목표는 Ψ_T(P_T)=ν_T^⊤β_T 로, 여기서 β_T는 선형 평균 모델 E

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기