문맥 밴드잇을 위한 일반화된 톰슨 샘플링
본 논문은 전통적인 톰슨 샘플링을 전문가 학습 프레임워크와 연결시켜, 손실 함수를 이용해 가중치를 업데이트하는 일반화된 톰슨 샘플링(Generalized Thompson Sampling, GTS) 알고리즘을 제안한다. 제곱 손실과 로그 손실 두 가지 경우에 대해 일반적인 정규화된 후회(bound)를 도출하고, 특히 사전 분포가 후회에 미치는 영향을 명시적으로 정량화한다. 결과는 컨텍스트 밴드잇 설정 전반에 적용 가능하며, 기존 이론보다 더 넓은…
저자: Lihong Li
본 논문은 다중 팔 밴드잇 문제에서 오래전부터 사용되어 온 톰슨 샘플링(Thompson Sampling, TS)의 이론적 이해를 확장하고자 한다. 기존 연구는 주로 베이즈 사후 업데이트의 특수한 형태(예: 베타 분포, 가우시안 사전)와 정확한 사전 가정에 의존했으며, 이러한 가정이 실제 응용에서 만족되지 않을 경우 이론적 보장이 약해지는 문제점이 있었다. 저자들은 이러한 제한을 극복하기 위해 TS와 지수 가중치 업데이트 사이의 연결 고리를 이용해, 손실 함수를 자유롭게 선택할 수 있는 새로운 알고리즘 패밀리인 일반화된 톰슨 샘플링(Generalized Thompson Sampling, GTS)을 제안한다.
**문제 설정 및 기본 가정**
컨텍스트 밴드잇은 매 라운드 t 에 컨텍스트 x_t 가 주어지고, 학습자는 팔 a_t 를 선택해 이진 보상 r_t∈{0,1} 을 관찰한다. 보상의 기대값은 µ(x,a) 이며, 최적 전문가 E* 는 µ 를 정확히 예측한다(즉, f₁(x,a)=µ(x,a)). 전문가 집합 E={E₁,…,E_N} 은 각기 다른 예측 함수 f_i 를 가지고, 각 전문가의 정책 E_i(x) 는 예측값이 가장 큰 팔을 선택한다.
**알고리즘 설계**
GTS는 초기 사전 분포 p=(p₁,…,p_N) 을 가중치 w₁←p 로 시작한다. 매 라운드 t 에 현재 가중치 정규화 \bar w_i,t 를 이용해 혼합 확률
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기