두 결과를 가진 유한 부분모니터링 게임의 분류와 최소극대 후회 분석
이 논문은 결과가 두 가지뿐인 유한 부분모니터링 게임을 대상으로, 게임을 ‘트리비얼·이즈·하드·홉리스’ 네 가지 유형으로 구분하고 각 유형의 최소극대 기대 후회가 각각 0, Θ(√T), Θ(T^{2⁄3}), Θ(T)임을 보인다. 또한 이를 판별할 수 있는 효율적인 기하학적 기준과 해당 후회 수준을 달성하는 알고리즘을 제시한다.
저자: Andras Antos, Gabor Bartok, David Pal
본 논문은 온라인 학습에서 피드백이 완전하지 않은 상황을 모델링하는 ‘부분모니터링 게임(partial‑monitoring game)’을 연구한다. 게임은 학습자와 상대가 각각 행동 집합 N(=|𝒩|)과 결과 집합 M(=|𝓜|)에서 선택을 반복하며, 학습자는 선택한 행동 i와 상대가 선택한 결과 j에 따라 손실 ℓ_{i,j}와 피드백 h_{i,j}를 동시에 관찰한다. 피드백과 손실은 사전에 알려진 행렬 L∈ℝ^{N×M}와 H∈Σ^{N×M}에 의해 정의된다. 상대는 ‘무지(obliviou)‘, 즉 학습자의 행동을 알 수 없으며 사전에 고정된 결과 시퀀스를 정한다. 학습자는 무작위 전략을 사용해 기대 후회 R_T(A,G)=E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기