안전한 사이버 물리 시스템을 위한 머신러닝 불확실성 추정 방법
본 논문은 사이버‑물리 시스템(CPS)에서 머신러닝 모델이 훈련 데이터가 부족한 영역에서 위험한 예측을 하는 문제를 해결하고자, 특징 공간을 하이퍼직사각형으로 분할하는 Feature Space Partitioning Tree(FSPT)를 제안한다. FSPT는 CART 기반의 트리를 이용해 훈련 샘플 밀도를 평가하고, 각 파티션에 점수 S(R)를 부여한다. 점수가 낮은 파티션은 데이터가 부족함을 의미하며, 해당 영역에 들어오는 입력에 대해 “Sa…
저자: Xiaozhe Gu, Arvind Easwaran
이 논문은 사이버‑물리 시스템(CPS)에서 머신러닝(ML) 모델이 안전하게 동작하도록 하기 위한 ‘Safe Fail’ 메커니즘을 데이터 기반으로 구현하는 방법을 제시한다. 기존 연구에서는 모델의 예측 확률이나 베이지안 불확실성을 이용해 reject 옵션을 결정했지만, 훈련 데이터가 부족하거나 전혀 없는 특징 공간에서는 이러한 방법이 과신을 일으킬 수 있다. 저자들은 이러한 문제를 해결하기 위해 Feature Space Partitioning Tree(FSPT)라는 새로운 트리 기반 기법을 고안한다.
FSPT는 먼저 전체 특징 공간을 정의하고, 각 특징의 최소·최대값을 구해 초기 하이퍼직사각형 R을 만든다. 이후 CART(Classification And Regression Tree) 알고리즘을 변형하여, Gini 지수와 특징 중요도를 결합한 새로운 분할 기준을 적용한다. 이 과정에서 ‘E‑point’라 불리는 가상의 빈 공간 데이터를 균등하게 샘플링하여, 실제 훈련 샘플과 비교한다. 각 파티션 R에 대해 훈련 샘플 수 |R|와 E‑point 수 |E_R|를 이용해 점수 S(R)=|R|/(|R|+|E_R|)를 계산한다. 점수가 1에 가까울수록 해당 파티션에 충분한 훈련 데이터가 존재함을 의미하고, 0에 가까울수록 데이터가 부족함을 나타낸다.
점수 기반의 파티션 정보는 두 가지 실용적인 용도로 활용된다. 첫째, 실시간 추론 시 입력 x가 속한 파티션의 점수가 낮으면 ML 모델의 예측을 거부하고, 전통적인 제어기나 인간 운영자에게 넘겨 ‘Safe Fail’을 구현한다. 둘째, 점수가 낮은 파티션을 식별함으로써 데이터 수집 전략을 재조정하고, 부족한 영역에 추가 샘플을 확보해 모델을 재학습시킬 수 있다.
실험에서는 SVM, 신경망, 회귀 트리 등 다양한 ML 모델에 FSPT를 적용하고, 각각의 파티션 점수와 실제 오류율 사이의 상관관계를 분석했다. 결과는 점수가 낮은 파티션에서 오류율이 현저히 증가함을 보여주며, FSPT 점수가 모델 성능을 예측하는 유용한 지표임을 입증한다. 또한, 트리 구조 덕분에 파티션 경계가 직관적이며, 추론 단계에서의 연산 비용이 낮아 실시간 CPS에 적합함을 확인했다. 다만, 고차원 특징 공간에서 E‑point를 충분히 샘플링하려면 계산량이 급증할 수 있다는 한계와, 과도한 파티션 분할이 과적합을 초래할 위험이 있다는 점을 논의한다. 마지막으로, 기존 베이지안 방법이나 컨포멀 프레딕션과 비교했을 때, FSPT는 훈련 데이터의 존재 여부를 직접적으로 평가함으로써 보다 보수적인 안전 메커니즘을 제공한다.
결론적으로, 본 연구는 훈련 데이터의 밀도와 분포를 정량화하여 ‘Safe Fail’ 전략을 구현하는 효율적인 방법을 제시함으로써, 안전이 중요한 CPS 분야에서 머신러닝 모델의 신뢰성을 크게 향상시킬 수 있음을 보여준다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기