예측유도 검열 하에서의 의사결정 지원

**1. 서론 및 문제 정의** 클라우드 서비스, 특히 대규모 생성형 AI(GenAI) 추론 서비스에서는 수요 예측 → 자원 할당 → 비용·SLO 관리라는 전통적인 파이프라인이 사용된다. 그러나 수요가 급변하고 비용이 높은 GPU 자원을 과소 할당하면, 시스템은 실제 수요 dₜ보다 작은 할당량 aₜ만 제공하고, 관측값은 yₜ = min(dₜ, aₜ)와 “수요 초과”를 나타내는 검열 지표 cₜ만 남는다. 이를 저자들은 “Prediction‑Induced Censoring (PIC)”이라 명명하고, 행동이 직접 데이터 관측을 제한함으로써 발생하는 선택 편향을 강조한다. 기존의 감독학습, 재고 관리, 계량경제학 등에서 다루는 외생적 검열과 달리, PIC는 정책 자체가 데이터 분포를 변형한다는 점에서 새로운 도전 과제이다. **2. 기존 접근법의 한계** - **비검열 학습**: 검열된 데이터를 무시하거나 단순히 평균값으로 대체하면, Proposition 1이 증명하듯 기대값이 낮아지는 부정적 드리프트가 발생한다. 이는 시스템이 점점 더 낮은 할당량을 선택하게 만들어 “저프로비저닝 함정”에 빠진다. - **전통적 베이스스톡 정책**: 고정된 재고 정책이나 단순히 과잉 할당하는 전략은 비용 효율성을 크게 떨어뜨리며, 검열이 발생하면 피드백 루프가 끊겨 적응이 불가능해진다. **3. PIC‑RL 프레임워크** 논문은 세 단계로 구성된 PIC‑RL을 제안한다. ***Phase 1: 불확실성‑인식 수요 예측*** 역사 로그를 이용해 LSTM‑Gaussian 모델 f_θ를 학습한다. 손실은 NLL이며, 출력은 평균 µₜ와 표준편차 σₜ이다. σₜ는 향후 행동이 검열을 일으킬 위험을 정량화하는 신호로 활용된다. ***Phase 2: 오프라인 사전학습 및 비관적 대리 보상*** - **정책·가치 네트워크**: π_ϕ는 상태 sₜ(피드백 통계, 시계열 통계, 예측·불확실성 정보)에서 단계‑크기 ηₜ와 불확실성 활용 계수 kₜ를 출력한다. V_ψ는 가치 추정에 사용된다. - **비관적 대리 보상 설계**: 검열된 단계에서는 실제 비용을 알 수 없으므로, 역밀스 비율 λ(z)와 기대 갭 G(a)=µ̂+σ̂·λ(z)−a를 이용해 r_censₜ = −c_under·G(aₜ)·Ψ(nₜ) 로 정의한다. Ψ(nₜ)=1+β·min(nₜ,N_max)는 연속 검열 횟수에 비례해 보상을 비관적으로 확대한다. Proposition 2는 (i) 보상 그래디언트가 항상 양수(행동 증가 유도)이고, (ii) 연속 검열이 길어질수록 그래디언트 크기가 커져 검열 함정에서 탈출하도록 설계되었음을 증명한다. - **오프라인 롤아웃**: 실제 로그에 PIC 메커니즘을 시뮬레이션해 검열을 재현하고, Actor‑Critic 알고리즘으로 정책을 사전 학습한다. 이는 온라인 단계에서 무작위 정책이 검열에 빠지는 위험을 사전에 차단한다. ***Phase 3: 온라인 RL 및 이중 시간 스케일 적응*** - **행동 구성**: aₜ = µₜ + kₜ·σₜ + Δₜ, 여기서 Δₜ = mₜ + bₜ는 Reactive Calibrator가 실시간으로 조정한다. - **Fast Loop (Reactive Calibrator)**: mₜ, bₜ를 ηₜ·δ·

예측유도 검열 하에서의 의사결정 지원

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기