연속 행동 그래프 게임 학습을 위한 효율적 방법과 이론적 보장

본 논문은 연속 행동을 갖는 그래프 게임에서, 이차형 보상 구조를 가진 순수 전략 내시 균형(PSNE)과 게임의 그래프 구조를 소수의 잡음이 섞인 균형 샘플만으로 복원하는 방법을 제안한다. ℓ₁₂ 블록 정규화를 이용한 다항 시간 알고리즘을 설계하고, 플레이어 수에 대해 로그 수준의 샘플 복잡도와 정확한 구조 복원을 위한 충분조건을 이론적으로 증명한다.

저자: Adarsh Barik, Jean Honorio

**1. 연구 배경 및 동기** 그래프 게임은 각 플레이어가 제한된 이웃과만 상호작용한다는 구조적 특성을 이용해 대규모 다중 에이전트 시스템을 모델링한다. 기존 연구는 주로 이산 행동 공간에서의 구조 학습이나 균형 계산에 초점을 맞추었으며, 연속 행동을 갖는 경우는 거의 다루지 않았다. 연속 행동 그래프 게임은 광고 입찰, 전력 시장, 로봇 협업 등 실세계에서 중요한 응용을 가지고 있다. 그러나 연속 행동은 무한히 많은 전략이 존재하므로, 균형 집합을 정확히 추정하고 그래프 구조를 복원하는 것이 이론적으로도 실용적으로도 어려운 문제이다. **2. 문제 정의** 플레이어 집합 \(V=\{1,\dots,p\}\)와 인접 행렬 \(W\in\mathbb{R}^{p\times p}\) (대각선 제외) 로 정의되는 그래프 게임을 고려한다. 각 플레이어 i는 k‑차원 연속 행동 \(x_i\in\mathbb{R}^k\) 를 선택하고, 보상은 \

연속 행동 그래프 게임 학습을 위한 효율적 방법과 이론적 보장

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기