주사위 게임의 최적 미니맥스 전략과 마코프 게임 해법

두 명이 번갈아 주사위를 굴리며 점수를 누적하고, 멈출지 혹은 에이스(1)를 굴릴지를 선택하는 게임을 경쟁적 마코프 결정 과정(전이형 스토캐스틱 게임)으로 모델링하였다. 게임이 유한히 종료됨을 보이고, 가치 함수와 최적 stationary 전략을 구하는 고정점 알고리즘을 제시하였다. 200점 목표점수와 점수 차이 최대화 두 변형에 대해 수치 실험을 수행해, “현재 점수와 상대 점수를 기준으로 일정 임계값 이상이면 멈추고, 이하이면 계속 굴린다”…

저자: Fabian Crocce, Ernesto Mordecki

이 논문은 두 명의 플레이어가 번갈아 주사위를 굴리며 점수를 누적하고, 언제 멈출지를 결정하는 전통적인 주사위 게임을 경쟁적 마코프 결정 과정(CMDP)이라는 수학적 프레임워크 안에서 재해석한다. 먼저 게임을 “전이형(stochastic transient) 스토캐스틱 게임”으로 모델링한다. 상태는 (j, α, β, τ) 로 정의되며, 여기서 j는 현재 차례인 플레이어, α와 β는 각각 플레이어 1·2의 현재 누적 점수, τ는 현재 턴에서 아직 점수에 반영되지 않은 임시 점수이다. 목표점수는 200점으로 설정하고, 목표점수에 도달하면 최종 상태 s_f 로 전이한다. 행동은 ‘roll’, ‘stop’, ‘wait’ 세 가지이며, ‘wait’는 차례가 아닌 플레이어가 선택할 수 없는 행동으로 모델에 포함시켜 두 플레이어가 동시에 행동을 선택하도록 만든다. ‘roll’은 주사위 굴리기를 의미하고, 1(에이스)이 나오면 현재 턴 점수 τ가 사라져 차례가 상대에게 넘어간다(확률 1/6). 2~6이 나오면 τ에 해당 눈금값을 더한다(확률 5/6). ‘stop’은 현재 τ를 자신의 누적 점수에 더하고 차례를 넘긴다. 보상 함수 r_s는 승리 시 +1, 그 외 0으로 정의한다. 이는 기대값을 최대화하는 것이 승리 확률을 최대화하는 것과 동등함을 보장한다. 전이 확률은 위의 ‘roll’과 ‘stop’ 행동에 따라 명시적으로 기술된다. 논문은 전이형 스토캐스틱 게임의 정의에 따라 최종 상태 s_f 가 흡수 상태이며, 모든 전략 쌍에 대해 유한 시간 내에 s_f 로 도달할 확률이 1임을 증명한다. 특히, 연속 70번 6이 나올 확률 γ = (1/6)^70 를 하한으로 사용해, t ≥ 70 일 때 최소 γ 확률로 게임이 종료된다는 점을 이용해 기대 종료 시간이 유한함을 보인다. 이후 경쟁적 마코프 게임 이론의 핵심 정리(정리 2.1)를 적용한다. 정리에 따르면, 가치 벡터 v(s) 는 다음 고정점 방정식을 만족한다. v(s) = max_{a∈A_s} min_{b∈B_s}

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기