동적 조합·가격 책정의 새로운 패러다임, 포아송‑MNL 밴딧

**1. 연구 배경 및 문제 정의** 소매·플랫폼 기업은 일정 주기(일·주·월)마다 어떤 상품을 진열하고 어떤 가격을 제시할지 결정한다. 전통적인 연구는 고객이 도착한 뒤 어떤 상품을 선택할지(MNL 선택 모델)만을 고려하고, 고객 도착 자체는 고정된 파라미터(예: λ)로 가정한다. 그러나 실제로는 진열 품목이 풍부하거나 가격이 저렴할수록 광고·입소문 효과가 커져 고객 흐름이 증가한다는 ‘도착‑수요 연계’ 현상이 존재한다. 이를 무시하면 매출을 최적화하는 정책이 크게 왜곡될 수 있다. **2. 포아송‑MNL 모델 설계** - **도착 모델**: 각 기간 t에 고객 도착 수 N_t를 포아송(λ(S_t,p_t)) 로 모델링한다. λ은 (S,p)의 베이스 함수 φ_k(S,p) (k=1…d_x)의 선형 결합 형태, 즉 log λ = θ_x^T φ(S,p) 로 표현한다. 베이스 함수는 조합 크기, 평균 가격, 특정 제품 특성 등 다양한 형태를 포함할 수 있다. - **선택 모델**: 고객이 도착하면 MNL 선택 확률 q_j(S,p) = exp(β^T z_j – p_j) / (1 + Σ_{k∈S} exp(β^T z_k – p_k)) 로 정의한다. 여기서 z_j는 제품 j의 d_z 차원 특성, β는 학습 대상 파라미터이다. **3. 목표와 성능 지표** 주어진 시간 horizon T(기간 수) 동안 누적 기대 수익 Σ_{t=1}^T λ(S_t,p_t)·Σ_{j∈S_t} q_j(S_t,p_t)·p_j 를 최대화한다. 최적 정책은 파라미터(θ_x,β)를 사전에 알 때 가능한 최적 (S*,p*)를 매 기간 선택하는 것이다. 알고리즘의 성능은 regret = Σ_{t=1}^T (R^* – R_t) 로 측정한다. **4. PMNL 알고리즘 구조** - **탐색 단계**: O(log T) 라운드 동안 무작위 혹은 균형 잡힌 조합·가격을 선택해 충분한 데이터 확보. 이때 각 제품이 최소 한 번 이상 선택되고, 다양한 가격대가 시도되도록 설계한다. - **추정 단계**: 관측된 (N_t, 구매 데이터) 를 이용해 최대우도추정(MLE)으로 θ̂_x와 β̂를 계산한다. 도착 파라미터는 포아송 로그우도, 선택 파라미터는 MNL 로그우도를 각각 독립적으로 최적화한다. - **UCB 선택**: 각 후보 (S,p) 에 대해 추정된 파라미터와 데이터‑의존적 상한 ε_t 를 사용해 상한 기대 수익 U(S,p) = λ̂(S,p)·Σ_{j∈S} q̂_j(S,p)·p_j + ε_t 를 계산한다. 그 후 U가 최대인 (S_t,p_t) 를 선택한다. **5. 이론적 분석** - **상한 증명**: 포아송 도착의 마팅게일 차분을 Bernstein 부등식으로 제어하고, MNL 선택의 로그우도에 대한 표준 GLM 집중 부등식을 적용해 파라미터 추정 오차를 O(√((d_z+d_x) log T / t)) 로 제한한다. 이를 regret 합산에 적용하면 E

동적 조합·가격 책정의 새로운 패러다임, 포아송‑MNL 밴딧

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기