학습 부채와 베이지안 재훈련: 비용 최소화 의사결정 프레임워크
본 논문은 모델 재훈련을 연속적인 베이지안 업데이트의 근사로 보고, 배포된 모델과 이상적인 사후분포 사이의 차이를 “학습 부채”라 정의한다. 학습 부채와 재훈련·정체 비용을 정량화한 뒤, 비용 비율에 기반한 임계값을 손실함수에서 도출함으로써 증거 기반 재훈련 트리거를 설계한다.
저자: Harrison Katz
본 논문은 모델 재훈련을 전통적인 유지보수 작업이 아닌, 제한된 계산·운영 자원 하에서 수행되는 베이지안 추론의 근사로 재해석한다. 베이지안 이론에 따르면 모델은 파라미터에 대한 사후분포를 지속적으로 업데이트하며, “구식” 혹은 “신형”이라는 이분법이 존재하지 않는다. 그러나 실제 기업 환경에서는 연산 비용, 검증 절차, 거버넌스 요구사항 등으로 인해 연속적인 업데이트가 불가능하고, 데이터가 누적될 때마다 일정 기간 배치를 모아 재훈련을 수행한다. 이때 배포된 모델은 마지막 훈련 시점의 사후분포를 고정한 상태이며, 새로운 데이터가 쌓일수록 이상적인 연속 사후와의 차이가 누적된다. 저자는 이 차이를 “학습 부채(learning debt)”라 명명하고, 정보이론적 거리인 KL 발산을 자연스러운 정량화 지표로 제시한다. 정확한 KL을 계산하기는 현실적으로 어렵지만, 로그 손실, 캘리브레이션 곡선, 섀도우 모델과의 파라미터 차이, 도메인별 분포 차이(L1, KL, Wasserstein) 등 다양한 프록시를 통해 학습 부채를 추정할 수 있다.
학습 부채를 기반으로 재훈련 결정을 비용 최소화 문제로 전환한다. 두 가지 비용을 정의한다. 첫째는 “청산 비용(churn cost)”, 즉 재훈련 시 발생하는 컴퓨팅, 엔지니어링, 배포 위험 및 잠재적 회귀 비용이다. 둘째는 “편향 비용(bias cost)”, 모델이 오래되어 예측이 편향될 때 발생하는 비즈니스 손실(예: 재고 과잉, 매출 손실 등)이다. 베이지안 의사결정 이론에 따라 재훈련은 다음 불등식이 만족될 때 수행한다.
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기