다목적 베이지안 최적화를 위한 혼합 모델 기반 선호 학습
본 논문은 다목적 베이지안 최적화에서 인간 의사결정자의 이질적인 선호를 하나의 고정된 효용함수로 가정하는 대신, 디리클레 과정 혼합 모델을 이용해 잠재적인 선호 원형(archetype)들을 학습한다. 모드 정체성 탐색과 모드 내부 무역‑오프 학습을 동시에 고려한 하이브리드 쿼리 전략을 제안하고, 간단한 후회(regret) 외에도 모드 커버리지와 혼합 가중치 보정 등을 진단 지표로 도입한다. 실험 결과, 제안 방법이 기존 베이스라인보다 빠르게 정…
저자: Manisha Dubey, Sebastiaan De Peuter, Wanrong Wang
본 논문은 다목적 베이지안 최적화(MaO‑BO)에서 인간 의사결정자의 선호가 단일 효용함수로 표현될 수 없다는 점을 출발점으로 삼는다. 목표 수가 4개 이상으로 늘어날 때 파레토 프론트는 급격히 복잡해지고, 인간은 고차원 결과를 직관적으로 평가하기 어려워진다. 이러한 상황에서 기존 연구들은 목표를 하나의 스칼라로 압축하거나 차원을 감소시키는 방법을 사용했지만, 이는 비보상적 선호나 다중 모드(예: 안전‑우선, 비용‑우선)와 같은 실제 인간 행동을 반영하지 못한다.
이에 저자들은 ‘선호 원형(archetype)’이라는 개념을 도입한다. 각 원형은 L‑차원 목표에 대한 체비셰프 가중치 벡터 w_k 로 정의되며, 이는 해당 모드에서의 효용을 –min_ℓ y_ℓ w_{kℓ} 형태로 계산한다. 의사결정자는 K개의 잠재 모드 중 하나에 따라 판단하고, 모드 선택 확률 η는 디리클레 과정(Dirichlet‑process) 기반의 스틱‑브레이킹으로 비정형적으로 모델링한다. 이렇게 하면 사전 지정 없이도 적절한 모드 수와 가중치를 자동으로 학습할 수 있다.
피드백은 쌍별 비교 형태로 수집된다. 각 비교 (y_i, y'_i)는 잠재 모드 z_i 를 통해 생성되며, 주어진 모드 k에서는 프로빗 모델 P(y_i ≻ y'_i | z_i=k) = Φ((U(y_i;w_k)−U(y'_i;w_k))/√(2σ_u)) 로 표현된다. 전체 likelihood는 모드별 확률의 가중합으로 구성된다. 비공액 프로빗 likelihood와 혼합 구조 때문에 정확한 사후분포는 계산이 불가능하므로, 평균장 변분 추정(mean‑field variational inference)으로 ELBO를 최적화한다. 변분 분포는 η, w_k, 스틱‑브레이킹 변수 v_k, 그리고 각 비교의 모드 할당 z_i 로 구성된다.
목표 함수는 독립적인 Gaussian Process(GP) 서러게이트를 사용해 각 목표를 모델링한다. GP는 관측된 설계 x와 목표값 y에 대해 사후 평균 μ_ℓ(x)와 분산 σ_ℓ²(x)를 제공한다. 설계 선택을 위한 획득 함수는 ‘mixture‑EI’를 도입한다. 이는 GP 서러게이트와 선호 혼합 모델의 불확실성을 동시에 고려해, 기대 효용 향상량 E_{f,θ}
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기