다중팔 밴딧을 위한 확장형 강인 UCB 정책: 무거운 꼬리 분포의 일반화와 로그 레그레트 달성

본 논문은 기존 UCB 기반 알고리즘이 요구하던 엄격한 순간(모멘트) 가정들을 완화하고, 임의의 p > q > 1을 만족하는 순간 관계만 알면 로그 차수의 레그레트를 보장하는 확장형 강인 UCB(Extended Robust UCB)를 제안한다. 또한 p‑차 순간만 존재하면 분포에 대한 사전 지식 없이도 근접 최적 레그레트를 얻을 수 있음을 증명한다. 가벼운 꼬리와 무거운 꼬리 모두에 적용 가능한 통합적인 UCB 프레임워크를 제공한다.

저자: Keqin Liu, Tianshuo Zheng, Zhi-Hua Zhou

본 논문은 다중팔 밴딧(MAB) 문제에서 보상 분포가 무거운 꼬리를 가질 때 기존 UCB(Upper Confidence Bound) 정책이 요구하는 엄격한 가정들을 완화하고, 보다 일반적인 순간 관계만을 이용해 로그 차수의 레그레트를 보장하는 새로운 알고리즘, ‘확장형 강인 UCB(Extended Robust UCB)’를 제안한다. 1. **배경 및 문제 정의** - MAB는 K개의 팔이 각각 미지의 확률분포 \(F_i\)를 가지고 보상을 제공하는 상황에서, 시간 T까지 누적된 기대 보상을 최대화하는 정책을 찾는 문제이다. - 성능 평가는 ‘레그레트’ \(R(T)=\sum_{i=1}^K \Delta_i \mathbb{E}

다중팔 밴딧을 위한 확장형 강인 UCB 정책: 무거운 꼬리 분포의 일반화와 로그 레그레트 달성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기