연결성 기반 다중 에이전트 협업 학습

** 본 논문은 다중 에이전트 시스템에서 협업을 위한 통신 메커니즘을 학습하는 새로운 접근법인 Connectivity‑Driven Communication(CDC)을 제안한다. 기존 연구들은 주로 고정된 통신 토폴로지를 사용하거나, 에이전트 간 메시지를 단순 평균·합산하는 방식에 의존해 왔다. 이러한 방법은 환경 상태에 따라 달라지는 정보 흐름의 효율성을 반영하지 못한다는 한계가 있다. CDC는 이러한 문제를 해결하기 위해 에이전트를 그래프의 노드로, 에이전트 간의 쌍별 메시지를 그래프의 가중치 s_{i,j} 로 모델링한다. 1. **동적 그래프 생성** - 각 에이전트는 자신의 관측 o_i와 다른 에이전트의 관측 o_j를 입력으로 비선형 인코더 ϕ_c 를 통해 메시지 c_{i,j}를 만든다. - 메시지는 또 다른 신경망 ϕ_s 와 시그모이드 σ 를 거쳐 0‒1 사이의 연결 강도 s_{i,j} 로 변환된다. - 이 과정은 완전 연결 그래프이지만, 실제 통신 강도는 현재 상태에 따라 학습된 값으로 결정된다. 2. **열 커널 기반 확산 및 주의 메커니즘** - 그래프 라플라시안 L 을 기반으로 열 커널 K(t)=exp(−tL) 를 계산한다. - 열 커널은 시간 파라미터 t 에 따라 정보가 그래프 전역에 어떻게 퍼지는지를 정량화한다. - 각 에이전트 i는 자신에게 들어오는 메시지 c_{j,i} 에 대해 열 커널이 제공하는 전역 영향력 K_{i,j}(t) 와 연결 강도 s_{i,j} 를 곱해 주의 가중치 α_{i,j}=s_{i,j}·K_{i,j}(t) 를 만든다. - 최종 통합된 로컬 표현 h_i 는 h_i=∑_j α_{i,j}·c_{j,i} 로 계산되며, 이를 정책 네트워크 μ_{θ_i} 에 입력해 행동을 선택한다. 3. **학습 프레임워크** - 중앙집중식 critic Q_ϕ 은 모든 에이전트의 관측·행동을 이용해 공동 Q‑값을 추정한다. - 각 actor는 독립적으로 파라미터 θ_i 를 업데이트하며, 정책 그라디언트는 ∇_{θ_i} E

연결성 기반 다중 에이전트 협업 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기