암시적 협력 기반 분산형 지역 에너지 시장을 위한 다중 에이전트 강화학습
본 논문은 명시적 P2P 통신 없이 시스템‑레벨 KPI를 스티그머직 신호로 활용해 지역 에너지 시장에서 에이전트들이 협력하도록 학습시키는 프레임워크를 제안한다. 34‑노드 IEEE 토폴로지를 이용한 3×3 실험에서 APPO‑DTDE 구성이 중앙집중식 기준의 91.7% 협조 점수를 달성했으며, 완전 분산 학습이 전력 균형 변동성을 31% 감소시켜 물리적 안정성을 크게 향상시켰다.
저자: Nelson Salazar-Pena, Alej, ra Tabares
본 논문은 급격히 증가하는 분산형 에너지 자원(DER)과 전력망 탈중앙화 추세에 대응하여, 프라이버시와 확장성을 동시에 만족시키는 지역 에너지 시장(LEM) 조정 방안을 모색한다. 기존 연구는 중앙집중식 최적화가 계산 복잡도와 단일 장애점 문제를 야기하고, P2P 거래는 통신 오버헤드가 제곱적으로 증가한다는 한계를 지적한다. 이러한 배경에서 저자들은 ‘암시적 협력(implicit cooperation)’이라는 새로운 프레임워크를 제안한다. 이는 에이전트가 직접적인 피어‑투‑피어 메시지를 주고받지 않고, 전력 흐름, 라인 혼잡도, 사회복지 등 시스템‑레벨 핵심 성과 지표(KPI)를 스티그머직 신호로 활용해 전역 상태를 추정하도록 설계되었다.
문제 정의는 부분관측 마르코프 결정 과정(POMDP)으로 공식화된다. 각 에이전트는 로컬 상태(배터리 SOC, 부하 예측 등)와 전역 KPI를 결합한 관측을 받아 연속적인 가격·거래량을 결정한다. 보상 함수는 개인 이익과 시스템 안정성을 동시에 반영하도록 설계되어, 에이전트가 스스로 전력 균형에 기여하도록 유도한다.
학습 패러다임은 세 가지로 구분된다. ① CTCE(중앙집중식 학습·중앙집중식 실행)는 전역 정보를 완전 활용해 최적 정책을 도출하지만 프라이버시 침해 위험이 있다. ② CTDE(중앙집중식 학습·분산 실행)는 중앙에서 크리틱을 학습하고 각 에이전트는 로컬 정책만을 실행한다. ③ DTDE(완전 분산 학습·분산 실행)는 에이전트가 모두 로컬 정보와 스티그머직 신호만으로 학습한다.
알고리즘 비교를 위해 Proximal Policy Optimization(PPO), 분산형 PPO(APPO), Soft Actor‑Critic(SAC) 세 가지를 적용하였다. 실험은 IEEE 34‑node 배전망 토폴로지를 기반으로 9개의 DER 에이전트를 배치하고, 3×3 요인 설계(패러다임×알고리즘)로 수행되었다. 주요 평가지표는 ‘협조 점수(전체 시스템 효율 대비 비율)’, ‘피어‑투‑피어 거래 비율’, ‘그리드 균형 변동성(분산)’이다.
실험 결과, APPO‑DTDE 조합이 협조 점수 91.7%를 달성하며 중앙집중식 기준(CTCE)과 근접한 성능을 보였다. 특히 DTDE는 전력 균형 변동성을 31% 감소시켜 물리적 안정성을 크게 향상시켰다. 반면 CTCE는 피어‑투‑피어 거래 비율 0.6을 달성해 할당 효율은 최고였지만, 변동성 측면에서는 열등했다. SAC는 CTDE 환경에서 빠른 수렴과 높은 효율을 보였으나, DTDE에서는 엔트로피 기반 탐색이 과도하게 불안정성을 초래해 성능이 급락하였다.
또한, 에이전트들은 지리적으로 군집을 형성해 ‘거래 커뮤니티’를 자발적으로 구성함으로써 라인 혼잡 페널티를 최소화하는 현상이 관찰되었다. 이는 스티그머직 신호가 공간적 협조 구조를 자연스럽게 유도한다는 중요한 시사점을 제공한다.
논문의 주요 기여는 다음과 같다. 첫째, 완전 분산 학습( DTDE )에서도 시스템‑레벨 KPI를 관측에 포함함으로써 중앙집중식 학습에 근접한 성능을 달성함을 실증하였다. 둘째, 평판 점수와 KPI를 연속적인 상태 변수로 활용해 가격‑전용 신호가 초래하는 부하 동기화 및 가격 변동성 문제를 완화하였다. 셋째, 다양한 학습 패러다임과 MARL 알고리즘을 체계적으로 평가해 APPO‑DTDE가 연속 제어와 물리적 안정성 측면에서 최적임을 밝혀냈다. 넷째, 스티그머직 기반 관측 설계가 대규모 DER 환경에서도 확장 가능함을 보여주었다.
마지막으로, 연구는 향후 연구 방향으로(1) 에이전트 수와 DER 종류를 확대해 대규모 실제 배전망에 적용, (2) 비정형 네트워크 토폴로지와 동적 시장 메커니즘을 결합한 하이브리드 모델 개발, (3) 실시간 구현을 위한 경량화된 신호 전송 및 정책 압축 기법 탐색 등을 제시한다. 전반적으로 이 논문은 프라이버시를 보존하면서도 물리적 안정성을 확보할 수 있는 분산형 에너지 시장 조정 메커니즘을 제시하고, 스티그머직 신호가 복잡한 전력 시스템에서 효과적인 협조 촉진 수단임을 입증한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기