효율적인 제어기 학습 인간 선호와 수치 데이터를 결합한 다중모달 서러게이트 모델

본 논문은 제어 정책 파라미터 튜닝 과정에서 발생하는 두 가지 주요 문제를 동시에 해결하고자 한다. 첫째, 고차원 파라미터 공간에서 고신뢰도(실제 인간이 평가하는) 선호 데이터만을 이용하면 실험 비용이 급증한다. 둘째, 저신뢰도(시뮬레이션 기반) 수치 데이터는 비용이 저렴하지만, 인간이 실제로 느끼는 주관적 만족도를 완전히 대체하지 못한다. 이를 위해 저자는 다중신뢰도·다중모달 베이지안 최적화 프레임워크를 제안한다. 프레임워크는 크게 네 부분으로 구성된다. (1) 문제 정의: 제어 시스템 x_{t+1}=f(x_t,u_t)와 파라미터화된 정책 π_ξ(x_t)를 설정하고, 인간 결정자가 잠재 목표 함수 G(ξ)를 기반으로 쌍별 선호를 제공한다. (2) 데이터 모델링: 수치 데이터는 전통적인 GP 회귀 모델에 Gaussian likelihood를 사용하고, 선호 데이터는 프로빗(likelihood) 함수를 이용한 GP 선호 모델을 적용한다. (3) 다중신뢰도 GP 구조: 두 가지 모델을 제시한다. 첫 번째는 자동회귀(autoregressive) 구조로, 저신뢰도 시뮬레이션 출력 ˆG(ξ)를 고신뢰도 GP의 선행으로 사용한다. 두 번째는 ICM 기반 코레기오날리제이션 모델로, 각 정보원을 별도의 출력 차원으로 두고 상관 행렬을 학습한다. 두 구조 모두 하이퍼파라미터를 최대우도 혹은 베이지안 방법으로 추정한다. (4) 베이지안 최적화 루프: 획득 함수(acquisition function)로는 Expected Improvement(EI) 혹은 Upper Confidence Bound(UCB)를 확장하여, 현재까지 관측된 수치와 선호 데이터를 모두 활용한다. 고신뢰도 선호 쿼리는 비용이 크므로, 획득 함수는 저신뢰도 데이터에 기반한 탐색을 우선시하면서, 필요 시 인간에게 선호 질문을 제시한다. 실험은 자율주행 차량의 궤적 계획 파라미터 ξ∈ℝ^5를 대상으로 수행된다. 저신뢰도 시뮬레이션은 차량이 목표 지점에 도달하는 시간, 연료 소비량 등을 정량적으로 평가한다. 고신뢰도 선호는 실제 운전자가 두 궤적을 비교해 “더 편안함” 혹은 “더 안전함”을 선택하는 형태로 수집된다. 실험 결과, 순수 선호 기반 PBO와 비교했을 때, 제안된 다중모달 모델은 동일 실험 예산(인간 쿼리 30회)에서 최적화된 파라미터가 평균 0.42 (편안함 점수) 향상되었으며, 수치 목표(시간·연료)에서도 15 % 이상의 개선을 보였다. 특히 자동회귀 구조는 시뮬레이션 데이터가 풍부할 때 빠른 수렴을 보였고, ICM 구조는 시뮬레이션과 선호 간 상관관계가 약할 때 더 안정적인 성능을 제공했다. 논문은 또한 모델 학습 및 추론의 계산 복잡도 분석을 제공한다. 자동회귀 모델은 저신뢰도 데이터와 고신뢰도 데이터가 순차적으로 결합되므로 O(N^3) 복잡도가 저신뢰도 데이터 규모에 의해 지배된다. ICM 모델은 코레기오날리제이션 행렬의 차원 확대에 따라 O((H·N)^3) 비용이 발생하지만, 행렬 분해와 스파스 근사 기법을 통해 실시간 적용이 가능함을 보였다. 결론적으로, 인간 선호와 수치 시뮬레이션을 동시에 활용하는 다중모달 GP 서러게이트는 데이터 효율성을 크게 향상시키며, 고차원 제어 파라미터 튜닝을 개인화된 방식으로 수행할 수 있음을 입증한다. 향후 연구에서는 (i) 다중선호(다중 인간) 데이터 통합, (ii) 비선형 자동회귀 구조 확장, (iii) 실시간 온라인 학습 적용 등을 통해 보다 복잡한 인간‑기계 시스템에 적용할 계획을 제시한다.

효율적인 제어기 학습 인간 선호와 수치 데이터를 결합한 다중모달 서러게이트 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기