다목적 베이지안 최적화를 위한 혼합 모델 기반 선호 학습

본 논문은 다목적 베이지안 최적화(MaO‑BO)에서 인간 의사결정자의 선호가 단일 효용함수로 표현될 수 없다는 점을 출발점으로 삼는다. 목표 수가 4개 이상으로 늘어날 때 파레토 프론트는 급격히 복잡해지고, 인간은 고차원 결과를 직관적으로 평가하기 어려워진다. 이러한 상황에서 기존 연구들은 목표를 하나의 스칼라로 압축하거나 차원을 감소시키는 방법을 사용했지만, 이는 비보상적 선호나 다중 모드(예: 안전‑우선, 비용‑우선)와 같은 실제 인간 행동을 반영하지 못한다. 이에 저자들은 ‘선호 원형(archetype)’이라는 개념을 도입한다. 각 원형은 L‑차원 목표에 대한 체비셰프 가중치 벡터 w_k 로 정의되며, 이는 해당 모드에서의 효용을 –min_ℓ y_ℓ w_{kℓ} 형태로 계산한다. 의사결정자는 K개의 잠재 모드 중 하나에 따라 판단하고, 모드 선택 확률 η는 디리클레 과정(Dirichlet‑process) 기반의 스틱‑브레이킹으로 비정형적으로 모델링한다. 이렇게 하면 사전 지정 없이도 적절한 모드 수와 가중치를 자동으로 학습할 수 있다. 피드백은 쌍별 비교 형태로 수집된다. 각 비교 (y_i, y'_i)는 잠재 모드 z_i 를 통해 생성되며, 주어진 모드 k에서는 프로빗 모델 P(y_i ≻ y'_i | z_i=k) = Φ((U(y_i;w_k)−U(y'_i;w_k))/√(2σ_u)) 로 표현된다. 전체 likelihood는 모드별 확률의 가중합으로 구성된다. 비공액 프로빗 likelihood와 혼합 구조 때문에 정확한 사후분포는 계산이 불가능하므로, 평균장 변분 추정(mean‑field variational inference)으로 ELBO를 최적화한다. 변분 분포는 η, w_k, 스틱‑브레이킹 변수 v_k, 그리고 각 비교의 모드 할당 z_i 로 구성된다. 목표 함수는 독립적인 Gaussian Process(GP) 서러게이트를 사용해 각 목표를 모델링한다. GP는 관측된 설계 x와 목표값 y에 대해 사후 평균 μ_ℓ(x)와 분산 σ_ℓ²(x)를 제공한다. 설계 선택을 위한 획득 함수는 ‘mixture‑EI’를 도입한다. 이는 GP 서러게이트와 선호 혼합 모델의 불확실성을 동시에 고려해, 기대 효용 향상량 E_{f,θ}

다목적 베이지안 최적화를 위한 혼합 모델 기반 선호 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기