지연 피드백 게임에서 추가 예측을 통한 선형 수렴 가속
본 논문은 피드백 지연이 존재하는 무제한 이중선형 게임에서 가중치가 부여된 낙관적 경사하강-상승(WOGDA) 알고리즘의 선형 수렴 속도를 분석한다. WOGDA를 기존 근접점(Proximal Point) 방법의 확장인 Extra Proximal Point(EPP)와 연결시켜, 다음 단계 예측(standard optimism)에서는 exp(−Θ(t/m⁵)) , 추가 예측(extra optimism)에서는 exp(−Θ(t/(m² log m))) 의 …
저자: ** *저자 정보가 논문 본문에 명시되어 있지 않아 확인할 수 없습니다.* **
본 논문은 실제 멀티에이전트 학습에서 피드백 지연이 불가피함을 지적하며, 특히 지연이 존재할 때 게임 이론적 학습 알고리즘의 수렴 속도가 어떻게 변하는지에 대한 근본적인 질문을 제기한다. 기존 연구들은 지연이 regret를 O(√T) 수준으로 악화시킨다는 점을 보여주었지만, 무제한 이중선형 게임에서의 마지막 반복 수렴(last‑iterate convergence, LIC)과 그 속도는 아직 밝혀지지 않았다.
문제 설정은 두 플레이어가 각각 x∈ℝ^{d_x}, y∈ℝ^{d_y} 를 선택하고, 보상 함수가 bilinear 형태 xᵀBy 로 정의되는 게임이다. 여기서 d_x=d_y=d 로 두고, B가 정규 행렬(전역 역행렬을 갖고 고유값이 순수 허수)이라고 가정한다. 이 경우 Nash 균형은 (0,0)이며, A=
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기