무제한 선형 밴드릿을 위한 교란 기반 접근법

본 논문은 무제한 행동 집합을 갖는 선형 밴드릿 문제(uBLO)를 위해 기존 교란 기반 방법을 재해석한다. 제안된 PABLO 프레임워크는 교란을 통해 얻은 무편향 손실 추정치를 이용해 임의의 온라인 선형 최적화(OLO) 알고리즘을 그대로 적용한다. 이를 통해 정적·동적 regret에 대한 기대값 보장, 고확률 보장 및 차원 의존성 Ω(√d T) 하한을 새롭게 제시한다. 특히 비교자 적응형(O(∥u∥) 스케일) 정적 regret과 경로 길이 √P…

저자: Andrew Jacobsen, Dorian Baudry, Shinji Ito

본 논문은 무제한 행동 집합 ℝ^d 를 갖는 선형 밴드릿 문제(uBLO)를 새로운 관점에서 접근한다. 기존의 제한된 집합을 전제로 한 선형 밴드릿 연구와 달리, uBLO에서는 학습자가 매 라운드마다 무한히 큰 행동을 선택할 수 있다. 이러한 설정은 비교자(Comparator)의 노름이 학습 과정에서 자유롭게 변할 수 있음을 의미한다. 따라서 전통적인 O(T) 수준의 위험 제어를 위해 R_T(0)≤ε 라는 추가 제약을 도입한다. 이는 학습자가 누적 이득에 비례해 스케일을 조절하도록 하는 파라미터‑프리 온라인 학습과 유사한 구조이다. 핵심 기법은 Abernethy et al. (2008)의 교란 기반 SCRiBLe 알고리즘을 일반화한 PABLO( Perturbation Approach for Bandit Linear Optimization) 프레임워크이다. 매 라운드 t 에서 OLO 서브루틴 A가 현재 추정 가중치 w_t 를 출력하고, 알고리즘은 H_t^{-1/2}·s_t 라는 랜덤 교란을 더해 실제 행동 e w_t = w_t + H_t^{-1/2}s_t 를 만든다. 여기서 s_t 는 H_t 의 고유벡터 중 하나에 ± 부호를 붙인 것으로, S = {±v_i : i∈

무제한 선형 밴드릿을 위한 교란 기반 접근법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기