주사위 게임의 최적 미니맥스 전략과 마코프 게임 해법

이 논문은 두 명의 플레이어가 번갈아 주사위를 굴리며 점수를 누적하고, 언제 멈출지를 결정하는 전통적인 주사위 게임을 경쟁적 마코프 결정 과정(CMDP)이라는 수학적 프레임워크 안에서 재해석한다. 먼저 게임을 “전이형(stochastic transient) 스토캐스틱 게임”으로 모델링한다. 상태는 (j, α, β, τ) 로 정의되며, 여기서 j는 현재 차례인 플레이어, α와 β는 각각 플레이어 1·2의 현재 누적 점수, τ는 현재 턴에서 아직 점수에 반영되지 않은 임시 점수이다. 목표점수는 200점으로 설정하고, 목표점수에 도달하면 최종 상태 s_f 로 전이한다. 행동은 ‘roll’, ‘stop’, ‘wait’ 세 가지이며, ‘wait’는 차례가 아닌 플레이어가 선택할 수 없는 행동으로 모델에 포함시켜 두 플레이어가 동시에 행동을 선택하도록 만든다. ‘roll’은 주사위 굴리기를 의미하고, 1(에이스)이 나오면 현재 턴 점수 τ가 사라져 차례가 상대에게 넘어간다(확률 1/6). 2~6이 나오면 τ에 해당 눈금값을 더한다(확률 5/6). ‘stop’은 현재 τ를 자신의 누적 점수에 더하고 차례를 넘긴다. 보상 함수 r_s는 승리 시 +1, 그 외 0으로 정의한다. 이는 기대값을 최대화하는 것이 승리 확률을 최대화하는 것과 동등함을 보장한다. 전이 확률은 위의 ‘roll’과 ‘stop’ 행동에 따라 명시적으로 기술된다. 논문은 전이형 스토캐스틱 게임의 정의에 따라 최종 상태 s_f 가 흡수 상태이며, 모든 전략 쌍에 대해 유한 시간 내에 s_f 로 도달할 확률이 1임을 증명한다. 특히, 연속 70번 6이 나올 확률 γ = (1/6)^70 를 하한으로 사용해, t ≥ 70 일 때 최소 γ 확률로 게임이 종료된다는 점을 이용해 기대 종료 시간이 유한함을 보인다. 이후 경쟁적 마코프 게임 이론의 핵심 정리(정리 2.1)를 적용한다. 정리에 따르면, 가치 벡터 v(s) 는 다음 고정점 방정식을 만족한다. v(s) = max_{a∈A_s} min_{b∈B_s}

주사위 게임의 최적 미니맥스 전략과 마코프 게임 해법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기