동적 조합·가격 책정의 새로운 패러다임, 포아송‑MNL 밴딧
본 논문은 상품 조합과 가격을 동시에 결정하는 동적 의사결정 문제에서, 고객 도착률이 조합·가격에 의존한다는 점을 반영한 포아송‑MNL 모델을 제안한다. UCB 기반 알고리즘 PMNL을 설계해 비대칭적인 도착·선택 불확실성을 동시에 학습하고, 기대 누적 수익에 대한 regret을 O(√T log T) 으로 상한을 잡으며 Ω(√T) 하한과 일치함을 증명한다. 시뮬레이션을 통해 고정 도착률을 가정한 기존 방법보다 현저히 우수함을 확인한다.
저자: ** (논문에 명시된 저자 정보를 그대로 기재해 주세요. 여기서는 원문에 저자 정보가 없으므로 **저자 미상**이라고 표기합니다.) **
**1. 연구 배경 및 문제 정의**
소매·플랫폼 기업은 일정 주기(일·주·월)마다 어떤 상품을 진열하고 어떤 가격을 제시할지 결정한다. 전통적인 연구는 고객이 도착한 뒤 어떤 상품을 선택할지(MNL 선택 모델)만을 고려하고, 고객 도착 자체는 고정된 파라미터(예: λ)로 가정한다. 그러나 실제로는 진열 품목이 풍부하거나 가격이 저렴할수록 광고·입소문 효과가 커져 고객 흐름이 증가한다는 ‘도착‑수요 연계’ 현상이 존재한다. 이를 무시하면 매출을 최적화하는 정책이 크게 왜곡될 수 있다.
**2. 포아송‑MNL 모델 설계**
- **도착 모델**: 각 기간 t에 고객 도착 수 N_t를 포아송(λ(S_t,p_t)) 로 모델링한다. λ은 (S,p)의 베이스 함수 φ_k(S,p) (k=1…d_x)의 선형 결합 형태, 즉 log λ = θ_x^T φ(S,p) 로 표현한다. 베이스 함수는 조합 크기, 평균 가격, 특정 제품 특성 등 다양한 형태를 포함할 수 있다.
- **선택 모델**: 고객이 도착하면 MNL 선택 확률 q_j(S,p) = exp(β^T z_j – p_j) / (1 + Σ_{k∈S} exp(β^T z_k – p_k)) 로 정의한다. 여기서 z_j는 제품 j의 d_z 차원 특성, β는 학습 대상 파라미터이다.
**3. 목표와 성능 지표**
주어진 시간 horizon T(기간 수) 동안 누적 기대 수익 Σ_{t=1}^T λ(S_t,p_t)·Σ_{j∈S_t} q_j(S_t,p_t)·p_j 를 최대화한다. 최적 정책은 파라미터(θ_x,β)를 사전에 알 때 가능한 최적 (S*,p*)를 매 기간 선택하는 것이다. 알고리즘의 성능은 regret = Σ_{t=1}^T (R^* – R_t) 로 측정한다.
**4. PMNL 알고리즘 구조**
- **탐색 단계**: O(log T) 라운드 동안 무작위 혹은 균형 잡힌 조합·가격을 선택해 충분한 데이터 확보. 이때 각 제품이 최소 한 번 이상 선택되고, 다양한 가격대가 시도되도록 설계한다.
- **추정 단계**: 관측된 (N_t, 구매 데이터) 를 이용해 최대우도추정(MLE)으로 θ̂_x와 β̂를 계산한다. 도착 파라미터는 포아송 로그우도, 선택 파라미터는 MNL 로그우도를 각각 독립적으로 최적화한다.
- **UCB 선택**: 각 후보 (S,p) 에 대해 추정된 파라미터와 데이터‑의존적 상한 ε_t 를 사용해 상한 기대 수익 U(S,p) = λ̂(S,p)·Σ_{j∈S} q̂_j(S,p)·p_j + ε_t 를 계산한다. 그 후 U가 최대인 (S_t,p_t) 를 선택한다.
**5. 이론적 분석**
- **상한 증명**: 포아송 도착의 마팅게일 차분을 Bernstein 부등식으로 제어하고, MNL 선택의 로그우도에 대한 표준 GLM 집중 부등식을 적용해 파라미터 추정 오차를 O(√((d_z+d_x) log T / t)) 로 제한한다. 이를 regret 합산에 적용하면 E
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기