조건부 라그랑지 최적 수송을 이용한 하이퍼파라미터 궤적 추정

본 논문은 신경망의 하이퍼파라미터가 출력 분포에 미치는 변화를 학습해, 관측되지 않은 하이퍼파라미터 값에서도 네트워크를 근사하는 서브게이트 모델을 구축하는 ‘하이퍼파라미터 궤적 추정(HTI)’ 문제를 제안한다. 이를 위해 조건부 라그랑지 최적 수송(CLOT) 프레임워크를 도입해, 잠재적인 라그랑지안(운동·위치 에너지)과 최적 수송 지도·지오데식(최단 경로)을 동시에 학습한다. 밀도 편향과 최소 작용 원리를 라그랑지안에 인코딩함으로써, 고차원·비…

저자: Harry Amad, Mihaela van der Schaar

조건부 라그랑지 최적 수송을 이용한 하이퍼파라미터 궤적 추정
본 논문은 신경망(NN)의 하이퍼파라미터가 출력 분포에 미치는 영향을 사후에 조정할 수 있는 새로운 프레임워크인 ‘Hyperparameter Trajectory Inference(HTI)’를 제안한다. 기존에는 하이퍼파라미터가 바뀔 때마다 모델을 재학습하거나, 고정된 하이퍼파라미터 집합에 대해 별도의 모델을 학습해야 했지만, HTI는 관측된 몇 개의 하이퍼파라미터 값(λ∈Λ_obs)에서의 조건부 출력 분포 pθλ(y|x)를 이용해, 미관측 λ에 대한 서브게이트 모델 ˆp(y|x,λ)를 학습한다. 이를 통해 배포 후에도 사용자는 λ를 자유롭게 조정하면서 NN의 행동을 근사적으로 바꿀 수 있다. HTI를 실현하기 위해 저자들은 ‘Conditional Trajectory Inference(CTI)’라는 개념을 도입한다. CTI는 기존 TI가 시간 t에 따른 마진 분포 p_t를 복원하는 것과 달리, 추가적인 조건 x가 존재할 때 조건부 경로 p_t(·|x)를 복원한다. 여기서 ‘시간’은 하이퍼파라미터 λ와 동일하게 간주한다. CTI의 핵심 과제는 관측된 λ에 대한 마진이 희소하고, 그 사이의 경로가 비유클리드적이며 비선형일 가능성이 높다는 점이다. 이를 해결하기 위해 논문은 ‘Conditional Lagrangian Optimal Transport(CLOT)’ 이론을 기반으로 한 방법론을 설계한다. 라그랑지 비용 함수는 전통적인 유클리드 거리 대신, 운동 에너지 K와 위치 에너지 U를 포함하는 L(q, q̇|x)=K(q, q̇|x)−U(q|x) 형태로 정의된다. K는 메트릭 G(q|x)를 통해 데이터 매니폴드의 기하학을 학습하고, U는 데이터 밀도에 로그를 취한 형태 ˆU(q|x)=α·log(ˆp(q|x)+ε) 로 설정한다. 여기서 ˆp는 Nadaraya‑Watson 커널 추정으로 얻으며, α는 밀도 편향 강도를 조절한다. 이 설계는 (i) 최소 작용 원리(least‑action) 즉, 가장 효율적인 경로를 선호하고, (ii) 데이터가 밀집된 영역을 경로가 통과하도록 유도한다는 두 가지 inductive bias를 동시에 제공한다. 학습 과정은 두 단계로 구성된다. 첫 번째 단계에서는 잠재 에너지 U를 고정하고, 메트릭 GθG와 Kantorovich 잠재 함수 gθ,g,k 를 교대로 최적화한다. GθG는 조건부 라그랑지 비용을 최소화하도록 학습되며, 이는 관측된 λ 간의 최적 수송 비용을 최소화하는 방향으로 작동한다. 두 번째 단계에서는 학습된 GθG를 고정하고, 각 시간 구간(k)마다 semi‑dual 형태의 OT 목표를 최대화하는 gθ,g,k 를 업데이트한다. 이렇게 하면 조건부 최적 수송 지도 T_c와 지오데식 q*를 신경망으로 근사할 수 있다. 제안된 CLOT은 기존의 조건부 흐름 매칭(CFM)이나 단순 선형 보간법과 달리, 비유클리드 구조와 복잡한 비선형 동역학을 자연스럽게 포착한다. 특히, 라그랑지안에 포함된 K와 U는 각각 ‘매니폴드 가설’과 ‘최소 작용’이라는 두 가지 강력한 inductive bias를 제공한다. 실험에서는 강화학습 정책(보상 가중치 λ)과 양자 회귀(분위수 τ) 두 가지 도메인에서, 관측된 λ/τ 값 사이의 중간값을 예측하는 능력을 평가한다. 결과는 제안 방법이 평균 KL 발산, Wasserstein 거리, 그리고 샘플 품질 측면에서 모든 베이스라인을 크게 앞선다는 것을 보여준다. 또한, 학습된 라그랑지안이 실제 하이퍼파라미터 변화에 따른 출력 분포의 물리적 의미(예: 보상 균형 변화)를 잘 반영한다는 정성적 분석도 제공한다. 논문의 주요 기여는 다음과 같다. (1) HTI라는 새로운 문제 정의와 이를 위한 CTI 프레임워크 제시, (2) 조건부 라그랑지 최적 수송을 통한 비용 함수와 최적 수송 지도·지오데식의 공동 학습, (3) 메트릭 G와 잠재 에너지 U를 신경망으로 학습함으로써 고차원 조건부 확률 경로를 효율적으로 복원한 점. 한계점으로는 현재 λ가 단일 연속 변수에만 적용된다는 점과, 커널 기반 U 추정이 고차원에서 계산 비용이 증가할 수 있다는 점을 들 수 있다. 향후 연구에서는 다중 하이퍼파라미터 공간으로 확장하고, 보다 효율적인 밀도 추정 기법을 도입하는 것이 자연스러운 진행 방향이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기