부분관측 게임을 위한 믿음 인식형 MuZero
SkyNet은 MuZero에 승자와 순위 예측 보조 헤드를 추가해, 부분관측·확률적·다인원 게임인 Skyjo에서 숨겨진 정보를 암시적으로 학습하도록 설계된 확장 모델이다. 기존 MuZero와 동일한 구조와 MCTS를 유지하면서, 에고‑조건화와 보조 목표를 통해 잠재 상태가 숨은 카드와 상대의 점수 분포를 반영하도록 유도한다. 실험 결과, 충분한 학습량이 확보되면 SkyNet은 베이스라인 대비 75 % 이상의 승률 향상을 보이며, 휴리스틱 상대에…
저자: Adam Haile
본 논문은 부분관측·확률·다인원 게임이라는 복합적인 도전 과제에 MuZero를 적용하기 위한 새로운 프레임워크인 SkyNet(믿음 인식형 MuZero)을 제안한다. 기존 MuZero는 완전정보·결정론적 환경에서 뛰어난 성과를 보였지만, 숨겨진 상태를 직접 모델링하지 않기 때문에 카드 게임처럼 정보가 가려진 상황에서는 잠재 상태가 중요한 정보를 놓칠 위험이 있다. 이를 보완하기 위해 저자는 두 가지 주요 설계를 도입한다.
첫 번째는 에고‑조건화(eego‑conditioning)이다. 다인원 게임에서는 같은 게임 상태라도 각 플레이어가 보는 관점에 따라 가치가 달라진다. 따라서 잠재 상태 h에 에고 플레이어, 현재 행동 플레이어, 전체 인원 수를 나타내는 임베딩을 더해 h_cond = LayerNorm(h + e_ego + e_current + e_nplayers) 형태로 변환한다. 이렇게 하면 하나의 네트워크가 모든 플레이어의 시점을 동시에 학습할 수 있어, 자기‑플레이 과정에서 각 플레이어별 가치와 정책을 별도로 추정할 필요가 없어진다.
두 번째는 승자와 순위 예측이라는 보조 헤드이다. 승자 헤드는 각 플레이어가 최종 승리할 확률을, 순위 헤드는 최종 순위 분포를 예측한다. 두 헤드 모두 에고‑조건화된 잠재 상태를 입력으로 받아 MLP를 통과시켜 출력한다. 손실 함수는 기존 MuZero 손실에 α·L_winner와 β·L_rank를 가중치로 추가한 형태이며, 초반에는 보조 손실이 과도하게 영향을 미치지 않도록 스케줄링한다. 이 보조 목표는 잠재 상태가 숨겨진 카드, 상대 점수, 게임 진행 상황 등 승패에 영향을 미치는 정보를 보존하도록 유도한다.
구현 세부 사항으로는 토큰 기반 관측 모델을 사용한다. 각 플레이어의 보드 토큰(위치·소유자·가시성·카드값), 디스크 토큰(상위 카드값·덱 크기), 전역 토큰(덱 크기·턴 인덱스·플레이어 수·단계 등), 행동 히스토리 토큰(최근 16개 공개 행동) 및 현재 결정 단계 토큰을 결합해 시퀀스를 만든다. 이 시퀀스는 6‑layer, 8‑head 트랜스포머 인코더를 통과해 512‑차원 잠재 벡터를 생성한다. 이후 동적 네트워크와 예측 네트워크는 기존 MuZero와 동일하게 설계되며, MCTS는 PUCT와 디리클레 노이즈를 그대로 사용한다.
실험 환경은 2‑8인용 카드 게임 Skyjo이다. Skyjo는 대부분의 카드가 가려져 있고, 무작위 드로우와 다인원 상호작용, 비제로섬 점수 체계를 가진다. 저자는 한 턴을 세 단계(소스 선택, 유지/버리기, 위치 선택)로 분해해 정보 흐름을 정확히 반영하도록 했다. 학습 파이프라인은 6가지 휴리스틱 봇을 활용한 커리큘럼, 과거 정책을 저장한 체크포인트 풀, 단계별 MCTS 시뮬레이션 수 증가(200→400→600) 등을 포함한다.
성능 평가는 두 가지 방식으로 진행되었다. (1) 동일 체크포인트에서 1000게임을 서로 대전시킨 head‑to‑head 평가에서는 SkyNet이 베이스라인 MuZero 대비 75.3 %의 승률(+194 Elo, p < 10⁻⁵⁰)을 기록했다. (2) 휴리스틱 상대와의 대전에서는 승률 0.720 vs. 0.466을 달성, 전반적으로 모든 평가 지표에서 우위를 보였다. 흥미로운 점은 초기 학습 단계에서 SkyNet이 베이스라인보다 뒤처지지만, 충분한 데이터와 연산량이 확보되면 보조 목표가 잠재 표현을 크게 향상시켜 최종적으로 베이스라인을 능가한다는 것이다. 이는 부분관측 환경에서 보조 학습이 효과를 발휘하려면 충분한 학습량이 필요함을 시사한다.
결론적으로, SkyNet은 MuZero의 모델‑기반 계획 구조를 유지하면서, 에고‑조건화와 승자·순위 보조 헤드를 통해 숨겨진 정보를 암시적으로 학습한다. 이는 베리프 업데이트와 같은 무거운 베이즈 추론 없이도 부분관측 게임에서 강력한 성능을 얻을 수 있음을 보여준다. 향후 연구에서는 명시적 베리프와의 결합, 다른 도메인(예: 협업 로보틱스, 금융 거래)으로의 확장, 보조 목표의 다양화 등을 통해 더욱 일반화된 믿음 인식형 모델을 구축할 수 있을 것이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기