마이크로그리드 에너지 저장소 동적 파견을 위한 강화학습·MCTS 통합 기법

본 논문은 마이크로그리드 내 배터리 에너지 저장시스템(BESS)의 다기간 확률적 파견 문제를 해결하기 위해 Q‑learning 기반 강화학습에 몬테카를로 트리 탐색(MCTS)과 도메인 규칙을 확률적 소프트 로직(PSL)으로 결합한 알고리즘을 제안한다. 배터리 수명 감소 비용을 비선형 목표에 포함시켜 현실성을 높였으며, 시뮬레이션 결과 기존 RL 기법 대비 성능이 우수함을 입증한다.

저자: Yuwei Shang, Wenchuan Wu, Jianbo Guo

마이크로그리드 에너지 저장소 동적 파견을 위한 강화학습·MCTS 통합 기법
본 논문은 변동성이 큰 재생에너지와 전기차 부하가 공존하는 마이크로그리드에서 배터리 에너지 저장시스템(BESS)의 동적 파견을 다기간 확률적 최적화(MSOP) 문제로 정의하고, 이를 해결하기 위한 새로운 강화학습(RL) 기반 알고리즘을 제안한다. 기존 연구들은 주로 결정론적 최적화나 두 단계·다 단계 확률적 프로그래밍을 사용했으며, 이러한 방법들은 시나리오 수가 급증함에 따라 계산 복잡도가 비현실적으로 커진다. 특히 BESS의 수명 감소 비용을 비선형 형태로 모델링하면 문제는 비볼록성이 커져 전통적인 수학적 최적화 기법으로는 해결이 어려워진다. 제안된 접근법은 Q‑learning을 기본 학습 구조로 채택하고, 함수 근사(신경망)를 이용해 연속적인 정책 학습과 다단계 부트스트래핑을 가능하게 한다. 그러나 다단계 시뮬레이션 자체가 여전히 계산량이 많아, 기대 최대 행동값을 효율적으로 추정하기 위해 몬테카를로 트리 탐색(MCTS)을 도입한다. MCTS는 현재 상태에서 가능한 행동들을 트리 형태로 전개하고, 선택‑확장‑시뮬레이션‑역전파 과정을 반복함으로써 제한된 시뮬레이션 횟수 내에서 가장 유망한 행동값을 근사한다. 이는 무작위 다단계 시뮬레이션에 비해 샘플 효율성을 크게 향상시킨다. 또한, BESS 파견에는 SOC(상태 충전량) 한계, 충·방전 효율, 전압·전류 제한 등 물리·운영상의 제약이 존재한다. 이러한 제약을 무시하면 비실현 가능한 행동을 탐색하게 되어 학습 효율이 저하된다. 이를 해결하기 위해 논문은 도메인 지식을 확률적 소프트 로직(Probabilistic Soft Logic, PSL) 형태로 정형화한다. PSL은 각 규칙에 확률적 가중치를 부여하고, 이를 잠재 함수(potential function)로 변환해 보상 구조에 통합한다. 결과적으로 불가능한 행동 공간이 사전에 축소되어 탐색 효율과 정책 품질이 동시에 개선된다. 알고리즘 흐름은 다음과 같다. 1) 현재 시점의 상태 s(전력 흐름, SOC, 전력 가격 등)를 관측하고, PSL 기반 필터링을 통해 허용 가능한 행동 집합 A(s)를 도출한다. 2) 각 행동 a∈A(s)에 대해 MCTS를 실행해 기대 최대 Q값 Q̂(s,a)를 추정한다. 3) 추정된 Q̂값을 이용해 ε‑greedy 혹은 소프트맥스 정책으로 행동을 선택하고, 실제 마이크로그리드 시뮬레이터에서 실행해 즉시 보상 r과 다음 상태 s′를 얻는다. 4) 경험( s,a,r,s′)을 리플레이 버퍼에 저장하고, 미니배치 샘플링을 통해 Q‑네트워크를 업데이트한다. 5) 위 과정을 에피소드 종료까지 반복한다. 수학적 모델링 측면에서, 논문은 BESS의 수명 감소 비용을 HO‑MER 시뮬레이터에 기반한 베이스라인 모델을 채택한다. 수명 감소 비용은 충·방전 전력의 절대값에 비례하는 비선형 함수로 정의되며, SOC 제한, 전압·전류 제한, 배터리 용량 제한 등을 포함한 제약식이 제시된다. 목표 함수는 전력 구매·판매에 따른 수익, 배터리 수명 감소 비용, 그리고 PCC(공통 결합점) 전력 추적 오차에 대한 페널티를 가중합한 형태이며, 할인율 γ를 적용해 다기간 기대 보상을 최대화한다. 실험 설정은 실제 마이크로그리드 데이터와 재생에너지·전기차 부하 프로파일을 사용했으며, 24시간, 48시간, 72시간 시나리오를 대상으로 성능을 평가했다. 비교 대상은 (i) 기본 Q‑learning, (ii) DQN, (iii) DDPG 등 최신 딥 RL 알고리즘이며, 모두 동일한 상태·행동 정의와 보상 구조를 적용하였다. 결과는 다음과 같다. • 제안 알고리즘은 평균 수익률을 기존 RL 대비 8~12% 향상시켰으며, 배터리 사이클 비용을 15% 이상 감소시켰다. • 정책 수렴 속도가 기존 방법에 비해 30~45% 빨라 실시간 적용 가능성을 확보했다. • PSL 기반 도메인 규칙을 제외하면 초기 탐색 단계에서 비실현 행동이 과다 선택돼 학습이 불안정해지는 현상이 관찰되었다. • MCTS 없이 순수 Q‑learning만 사용할 경우 시뮬레이션 시간은 동일 정확도 대비 3배 이상 증가했다. 결론적으로, 본 연구는 (1) 비선형 수명 비용을 포함한 다기간 확률적 파견 모델을 RL로 변환, (2) MCTS를 통한 기대 최대 Q값 근사로 샘플 효율성을 강화, (3) 도메인 규칙을 PSL로 정형화해 탐색 공간을 사전 축소하는 세 가지 혁신적 요소를 결합함으로써 마이크로그리드 BESS 파견 문제에 실용적이고 확장 가능한 해결책을 제시한다. 향후 연구에서는 다중 에이전트 협력, 연속 행동 공간에 대한 정책 gradient 기법 적용, 그리고 실제 현장 시험을 통한 검증이 기대된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기