분산형 정책그라디언트로 선형‑이차 확률 미분 게임의 균형 학습: α‑포텐셜 접근법

본 논문은 N명 플레이어가 각자의 상태만을 이용하는 분산 정책을 사용하고, 독립적인 정책그라디언트(PG) 업데이트를 수행하는 선형‑이차(LQ) 확률 미분 게임을 연구한다. 게임이 쌍대 대칭(pairwise‑symmetric)일 때는 α‑포텐셜 함수가 정확히 존재함을 보이고, 이를 최소화함으로써 선형 형태의 균형을 구성한다. 독립 PG 알고리즘은 전역 선형 수렴을 보이며, 복잡도는 인구 규모 N에 대해 선형, 목표 정확도 ε에 대해 로그 스케일이…

저자: Philipp Plank, Yufei Zhang

1. **서론 및 연구 동기** 다중 에이전트 강화학습(MARL)에서 Nash 균형(Nash Equilibrium, NE) 학습은 이론적·실용적 난관이 많다. 특히 연속시간·연속상태·연속액션을 갖는 확률 미분 게임(stochastic differential game)에서는 상태·액션 공간이 무한 차원이고, 다른 플레이어들의 정책이 동시에 변하면서 비정상성(non‑stationarity)이 발생한다. 기존 연구는 주로 평균장(mean‑field) 가정이나 완전 관측(full‑information) 정책에 의존했으며, 일반적인 네트워크 구조에서의 분산 정책(distributed policy)과 독립적인 정책그라디언트(PG) 학습에 대한 이론적 보장은 부족했다. 2. **문제 설정** 시간 구간 \(

분산형 정책그라디언트로 선형‑이차 확률 미분 게임의 균형 학습: α‑포텐셜 접근법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기