신경망 기반 모델 예측을 활용한 건물 HVAC 스케줄링 강화학습

본 논문은 건물 HVAC 시스템의 에너지 절감을 위해 신경망으로 학습한 시스템 동역학을 활용한 모델 기반 강화학습(MBRL) 프레임워크를 제안한다. 학습된 모델을 이용해 모델 예측 제어(MPC)를 수행하고, 안전한 탐색을 위해 행동 범위와 변화량을 사전 지식으로 제한한다. EnergyPlus 시뮬레이션 기반 2구역 데이터센터 실험에서 학습된 모델의 평균 궤적 오차가 20% 이하이며, 기존 방법 대비 17.1%~21.8% 에너지 절감, 모델‑프리…

저자: Chi Zhang, Sanmukh R. Kuppannagari, Rajgopal Kannan

신경망 기반 모델 예측을 활용한 건물 HVAC 스케줄링 강화학습
1. 서론 건물 에너지 소비는 미국 전체 에너지 사용량의 약 40%를 차지하고, 그 중 HVAC 시스템이 절반에 달한다. 기존의 규칙 기반, PID, LQR 등 전통적인 제어 방식은 시스템의 비선형성·다변량 특성과 외부 교란(날씨, 전력 가격, 점유율) 변화에 적절히 대응하지 못한다. 최근 딥 강화학습(DRL)이 데이터 기반 제어로 주목받았지만, 모델‑프리 방식은 대규모 상호작용 데이터가 필요해 실제 건물에 적용하기엔 샘플 효율성이 낮다. 또한, 안전한 탐색이 보장되지 않아 제어 오류가 설비 손상을 초래할 위험이 있다. 2. 관련 연구 기존 연구는 (i) 선형 모델 기반 제어, (ii) 데이터‑드리븐 선형/비선형 모델링, (iii) 모델‑프리 DRL(DQN, PPO) 등을 제시했다. 그러나 선형 모델은 실제 HVAC의 복잡성을 포착하지 못하고, 모델‑프리 DRL은 학습 비용이 과다하다. 일부 연구는 모델‑기반 접근을 시도했지만, 온라인 적응성 부족·분포 변화 대응 미비 등의 한계를 보였다. 3. 시스템 모델링 논문은 단일 구역 HVAC 시스템을 대표 모델로 제시하고, 열 교환, 팬, 냉수 흐름 등 주요 구성 요소와 제어 변수(f: 공기 흐름, gpm: 냉수 흐름)를 정의한다. 시스템 동역학은 에너지 보존 방정식으로 표현되며, 상태 변수는 온도·습도 등 관측 가능한 값과 외부 부하(Q_o, M_o) 등 숨은 변수로 구성된다. 기존 선형 모델링의 한계를 지적하고, 관측값과 제어 입력을 이용해 차분 형태의 신경망 모델을 학습함으로써 비선형성을 포착한다. 4. 강화학습 프레임워크 - **문제 정의**: POMDP 형태로 상태 s(t), 관측 o(t), 행동 a(t), 보상 r(t) 등을 정의하고, 비용(에너지 소비)과 제약(온·습도 범위)을 동시에 고려한다. - **모델‑프리 접근**: PPO 기반 정책을 사용하되, 비용과 제약을 하나의 보상 함수 r = r_T + λ·r_P 으로 결합한다. 샘플 효율성이 낮아 비교 대상으로만 사용한다. - **모델‑기반 접근**: (1) 데이터셋 D를 구축하고, (2) 신경망 f_obs,sys(·;θ) 로 Δo를 예측하도록 학습한다. (3) 학습된 모델을 이용해 MPC를 수행한다. MPC는 랜덤 샘플링 슈팅을 통해 후보 행동 시퀀스를 생성하고, 비용+제약 페널티를 최소화한다. (4) 실시간 제어를 위해 MPC 출력을 모방하는 정책 네트워크 π_imit를 학습한다. 5. 안전 탐색 및 제약 처리 행동 범위와 변화량을 사전 정의된 안전 구간으로 제한함으로써 급격한 제어 변동을 방지한다. 이는 실제 설비 손상을 예방하고, 시뮬레이션에서의 불안정성을 감소시킨다. 6. 실험 설정 EnergyPlus 기반 2구역 데이터센터 시뮬레이터를 사용해 실험을 진행한다. 학습 데이터는 시뮬레이터에서 수집한 1주일치 운영 로그이며, 모델 학습 후 30일 동안 제어 성능을 평가한다. 비교 대상은 (i) PID, (ii) LQR, (iii) 선형 모델 기반 MPC, (iv) 모델‑프리 PPO. 7. 결과 및 분석 - **모델 정확도**: 학습된 신경망 모델의 평균 궤적 오차는 20% 미만으로, 실제 시스템 동역학을 충분히 근사한다. - **에너지 절감**: 제안된 MBRL‑MPC는 기존 베이스라인 대비 17.1%~21.8% 에너지 소비를 감소시켰다. 특히, LQR 대비 15% 이상 절감 효과를 보였다. - **학습 효율성**: 모델‑프리 PPO는 수십만 단계의 학습이 필요했으나, MBRL은 약 10배 적은 단계(수만 단계)로 수렴했다. 이는 실제 건물 운영에서 데이터 수집 비용을 크게 낮춘다. - **제약 만족도**: 온도·습도 제약 위반 횟수는 모두 0%에 가까워, 안전한 제어가 보장됨을 확인했다. 8. 결론 및 향후 과제 본 논문은 신경망 기반 시스템 동역학 학습과 MPC를 결합한 모델‑기반 강화학습이 건물 HVAC 제어에 있어 높은 에너지 효율과 샘플 효율성을 동시에 달성할 수 있음을 실증하였다. 향후 연구는 (i) 다구역·다층 건물 모델 확장, (ii) 외부 교란(날씨·가격) 예측과의 통합, (iii) 실제 현장 적용을 위한 온라인 적응 메커니즘 강화 등을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기