결측 데이터가 반영된 단기 광발전 예측의 불확실성 정량화
본 연구는 광발전(PV) 단기 예측에서 결측 데이터가 초래하는 불확실성을 다중 임퓨테이션과 Rubin 규칙을 결합해 정량화하는 프레임워크를 제안한다. 모델에 독립적인 방식으로 결측값을 확률적으로 복원하고, 복원된 여러 데이터셋으로부터 얻은 예측 평균과 분산을 통합해 예측 구간을 구성한다. 실험 결과, 결측값을 단일 임퓨테이션으로 처리할 경우 과도하게 좁은 구간이 생성되지만, 제안 방법은 구간 캘리브레이션을 크게 개선하면서 점 예측 정확도는 유지…
저자: Parastoo Pashmchi, Jérôme Benoit, Motonobu Kanagawa
**1. 서론**
광발전은 기후 변화와 재생에너지 확대 정책에 따라 전력망에서 차지하는 비중이 급증하고 있다. 그러나 일사량, 기상 조건, 장비 고장 등에 의해 측정 데이터에 결측이 빈번히 발생한다. 기존의 PV 예측 연구는 결측을 사전 처리하거나 단일값으로 대체한 뒤 완전 데이터로 가정하고 모델을 학습한다. 이러한 방법은 결측 자체가 내포한 불확실성을 무시하게 되며, 특히 확률적 예측이 요구되는 전력 시스템 운영에서 잘못된 신뢰구간을 제공한다는 한계가 있다.
**2. 관련 연구**
PV 예측 분야에서는 Gaussian Process, 앙상블, 시공간 모델 등 다양한 확률적 방법이 제안되었지만, 모두 완전 데이터를 전제로 한다. 결측값 처리에 관한 연구는 주로 데이터 복원에 초점을 맞추며, 복원 후의 예측에 불확실성을 반영하지 않는다. 일부 연구는 MICE 방식이나 부트스트랩을 이용해 다중 복원을 시도했지만, 복원된 여러 데이터셋을 예측에 통합하는 체계적인 방법론이 부족했다.
**3. 연구 기여**
본 논문은 다음 세 가지 주요 기여를 제시한다.
- **결측 데이터 불확실성의 원칙적 전파**: 다중 임퓨테이션과 Rubin 규칙을 결합해 결측이 예측 분산에 미치는 영향을 정량화한다.
- **모델-불가지론적 통합 프레임워크**: 입력·출력 결측 모두에 적용 가능하며, 기존 머신러닝 모델(랜덤 포레스트, XGBoost 등)과 손쉽게 연동된다.
- **예측 캘리브레이션 향상**: 실험을 통해 결측을 무시한 경우 과도하게 좁은 구간이 생성되는 문제를 해결하고, 점예측 정확도는 유지한다는 사실을 입증한다.
**4. 방법론**
① **결측 표시와 조건부 분포 추정**: 결측 여부를 이진 마스크 M으로 표시하고, 일사량 I를 조건으로 PV 출력 P의 조건부 분포 Pr(P|I)를 비모수적으로 추정한다. 여기서는 k최근접이웃 샘플러(kNNSampler)를 사용해, I와 가장 가까운 k개의 관측값에서 P를 무작위로 샘플링한다.
② **다중 임퓨테이션 절차**: B번의 독립적인 임퓨테이션을 수행한다. 각 임퓨테이션 b에 대해 훈련 데이터와 테스트 입력을 완전하게 복원하고, 동일한 학습 알고리즘으로 모델 ˆf(b)를 학습한다.
③ **Rubin 규칙에 의한 예측 평균·분산 통합**: 각 모델이 제공하는 예측 평균 ˆf(b)(X_te^(b))와 훈련 잔차 기반 분산 (σ̂²)_te^(b)를 이용해 within‑imputation variance와 between‑imputation variance를 계산한다. 최종 예측 분산은 WV + (1+1/B)·BV 형태로 합산한다.
④ **예측 구간 구성**: 최종 평균·분산을 기반으로 정규분포 혹은 감마분포를 가정해 95% 신뢰구간을 산출한다. 정규분포는 대칭성을 갖지만 음수 값을 포함할 수 있어, 필요 시 감마분포를 사용해 비음수 제약을 만족한다.
**5. 실험 설계**
- **데이터**: 프랑스 EURECOM에서 수집한 1년치 PV 출력 및 일사량 시계열을 사용한다.
- **결측 시나리오**: 무작위 결측 비율을 10%, 20%, 30%로 설정하고, 실제 관측에서 나타나는 연속 결측 구간도 포함한다.
- **베이스라인**: 단일 임퓨테이션(평균·0 대체)과 기존 복원 방법을 비교한다.
- **평가 지표**: 점예측 정확도(MAE, RMSE), 구간 커버리지(coverage), 구간 폭(average width) 등을 사용한다.
**6. 결과**
다중 임퓨테이션은 95% 목표 커버리지를 93~96% 수준으로 달성했으며, 단일 임퓨테이션은 78~84%에 머물렀다. 구간 폭은 다중 임퓨테이션이 약 1.5배 넓었지만, 이는 실제 불확실성을 반영한 결과로 해석된다. 점예측 지표는 두 방법 간 차이가 1~2% 미만으로, 불확실성 정량화가 점예측 성능에 부정적 영향을 주지 않음을 보여준다. 또한, 다양한 머신러닝 모델에 적용했을 때 일관된 개선 효과가 관찰되었다.
**7. 논의 및 한계**
- **모델 독립성**: 프레임워크는 확률적 예측을 제공하는 모델이면 대부분 적용 가능하지만, 비선형 복합 모델에서는 훈련 잔차 기반 분산 추정이 부정확할 수 있다.
- **임퓨테이션 수 B**: 실험에서는 B=5~10이 충분했으며, B를 크게 늘리면 계산 비용이 증가한다.
- **조건부 분포 추정**: kNNSampler 외에도 베이지안 네트워크, GAN 기반 복원 등 더 정교한 방법을 사용할 경우 성능 향상이 기대된다.
**8. 결론**
본 연구는 결측 데이터가 존재하는 PV 단기 예측에서 불확실성을 정량화하고, 예측 구간의 캘리브레이션을 크게 개선하는 실용적인 방법론을 제시한다. 다중 임퓨테이션과 Rubin 규칙을 결합한 접근은 모델에 독립적이며, 실제 전력 시스템 운영에서 보다 신뢰할 수 있는 예측 정보를 제공한다. 향후 연구에서는 실시간 스트리밍 데이터에 대한 온라인 다중 임퓨테이션 및 복합 기상 변수와의 연계 모델링을 탐색할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기