미니맥스 이중성으로 바라본 최적 후회의 확률적 해석
이 논문은 온라인 컨벡스 최적화 게임에서의 최적 후회(regret)를 분석한다. 폰 노이만의 미니맥스 정리를 활용하여, 적대적 환경의 최적 후회가 확률적 과정에서 경험적 최소화 알고리즘의 행동과 밀접히 연관됨을 증명한다. 구체적으로, 최적 후회는 적의 행동 시퀀스에 대한 모든 결합 분포에 걸쳐, 최소 기대 손실의 합과 최소 경험적 손실의 차이의 최댓값과 동일하다. 이는 젠센 부등식의 간격으로 기하학적 해석이 가능하며, 이를 통해 다양한 온라인 …
저자: Jacob Abernethy, Alekh Agarwal, Peter L. Bartlett
본 논문 "A Stochastic View of Optimal Regret through Minimax Duality"는 적대적 온라인 학습의 핵심 문제인 온라인 컨벡스 최적화(OCO) 게임에서 최적의 성능 한계, 즉 미니맥스 후회(Minimax Regret) R_T를 체계적으로 연구한다. 연구의 출발점은 통계적 학습과 온라인 학습 간의 유사성에도 불구하고 명확한 이론적 연결고리가 부재했다는 인식이다.
서론에서는 배치 방식의 통계적 학습과 순차적 적대적 학습의 대비를 설명하며, OCO 게임의 기본 설정(플레이어의 예측 집합 F, 적의 행동 집합 Z, 볼록 손실 함수 ℓ)과 목표인 누적 후회를 정의한다. 본론의 첫 번째 주요 기여는 **미니맥스 정리의 적용**이다. 다이나믹 프로그래밍으로 정의된 게임의 값 R_T(식 (1))에 폰 노이만의 미니맥스 정리를 반복 적용하여, 이를 완전히 등가인 확률적 표현(식 (2))으로 변환한다. 이 변환은 "적이 먼저 데이터 생성 분포 p(결합 분포)를 선택하고, 플레이어가 각 라운드에서 관측된 과거 데이터에 조건부로 기대 손실을 최소화하는 행동 f_t를 선택한다"는 새로운 게임으로 해석된다. 이로써 적대적 후회 문제가 확률적 과정에서의 예측 문제로 재탄생한다.
이 핵심 공식 R_T(p)를 분석하기 위해 저자들은 **최소 기대 손실 함수 Φ(p) = inf_f E_z∼p
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기