특징 풍부 비정상 밴딧 문제를 위한 실용 알고리즘
본 논문은 밀집된 팔 특징, 비선형 보상 함수, 그리고 시간에 따라 변하지만 상관 구조는 유지되는 비정상 컨텍스트 밴딧 문제를 정의하고, 이를 해결하기 위해 임베딩 공간에서 개선된 Nadaraya‑Watson 추정과 Thompson 샘플링을 결합한 C³ 알고리즘을 제안한다. 실험 결과, 네 개의 OpenML 탭형 데이터와 Microsoft News(MIND) 데이터셋에서 기존 방법 대비 평균 누적 레그레드가 5.7% 감소하고 클릭률이 12.4%…
저자: Wei Min Loh, Sajib Kumer Sinha, Ankur Agarwal
본 연구는 실무에서 흔히 마주치는 세 가지 복합적인 요구사항을 하나의 문제로 통합한다. 첫째, 추천 시스템 등에서 각 아이템(팔)이 고차원 특징 벡터로 표현되는 상황을 고려한다. 둘째, 사용자의 반응은 선형이 아닌 복잡한 비선형 함수에 의해 결정된다는 점을 반영한다. 셋째, 시간에 따라 사용자 선호와 아이템 인기도가 변동하는 비정상성을 포함하면서도, 아이템 간에 내재된 상관 구조(예: 자전거와 헬멧처럼 강하게 결합된 제품군)는 유지된다는 가정을 둔다. 이러한 설정을 ‘비정상 컨텍스트 밴딧 with 결합된 팔(coupled arms)’이라 명명하고, 기존 연구가 다루지 못한 새로운 차원을 제시한다.
문제 정의에서는 보상 확률 µ(c,a,t)를 시간 t에 따라 변하는 Lipschitz 연속 함수로 모델링한다. 팔 a는 밀집 특징 벡터로 표현되며, 유효 팔 집합은 매 시점마다 동적으로 변한다. 결합도 ρ(a,a′,c)는 Jensen‑Shannon 발산을 이용해 정의되며, ρ=1이면 완전 결합, ρ≈0이면 독립을 의미한다. 이 정의를 통해 강하게 결합된 팔 쌍은 서로의 보상 정보를 공유할 수 있음을 수학적으로 명시한다.
알고리즘 설계는 두 핵심 모듈로 구성된다. 첫 번째는 컨텍스트와 팔을 공동 임베딩 공간 S에 매핑하는 신경망 ϕ이다. 이 임베딩은 다층 퍼셉트론으로 구현되며, 학습 목표는 이진 교차 엔트로피 손실과 기대 캘리브레이션 오류(ECE)를 동시에 최소화하는 것이다. 캘리브레이션 손실은 과신을 억제하고, 결합된 팔 쌍이 임베딩 공간에서 가까이 모여 클러스터링되도록 유도한다.
두 번째 모듈은 임베딩된 샘플에 대해 중요도 가중 Nadaraya‑Watson 커널 회귀(IWKR)를 수행하는 비파라메트릭 추정기이다. 기본 NWKR는 주변 샘플의 라벨을 커널 가중 평균으로 결합하지만, 데이터 수집 과정에서 특정 영역에 샘플이 과다하게 모이는 경우 편향이 발생한다. 이를 해결하기 위해 각 샘플 s에 대해 중요도 가중치 w(s)=1/∑_i κ(s,s_i) 를 정의하고, 가중치를 반영한 회귀식(5)을 사용한다. 논문은 이 가중치 계산을 O(n) 시간으로 최적화하는 알고리즘을 제시하고, 충분히 큰 레퍼런스 데이터가 존재할 때 IWKR가 µ(s)의 근사 추정값임을 정리와 보조 증명으로 입증한다.
C³ 알고리즘은 학습된 ϕ와 IWKR를 결합한다. 매 시점 t에 새로운 컨텍스트 c_t와 유효 팔 집합 A_t가 주어지면, 각 팔 a∈A_t에 대해 임베딩 s=ϕ(c_t,a)를 얻고, 동일 시간 구간에 속하는 레퍼런스 샘플만을 사용해 IWKR로 보상 평균 ˆµ(s)를 추정한다. 이 추정값을 베타 분포의 사전 파라미터로 활용해 Thompson 샘플링을 수행한다. 구체적으로, 각 팔에 대해 베타(α+ successes, β+ failures)에서 샘플을 뽑아 가장 높은 샘플 값을 가진 팔을 선택한다. 이 과정은 온라인에서 추가 재학습 없이도 즉시 수행 가능하며, 결합된 팔 정보와 비정상성을 동시에 반영한다.
실험 설계는 네 개의 OpenML 탭형 데이터셋(다중 클래스 분류)과 Microsoft News(MIND) 데이터셋을 사용한다. 평가 지표는 평균 누적 레그레드와 클릭률(CTR)이다. 비교 대상에는 LinUCB, NeuralUCB, SquareCB, Restless‑UCB, 그리고 최신 비정상 밴딧 방법들이 포함된다. 결과는 C³가 평균 누적 레그레드에서 5.7% 개선을 보였으며, MIND 데이터에서는 클릭률이 12.4% 상승함을 보여준다. 특히 비정상성과 결합된 팔 구조가 뚜렷한 상황에서 C³의 성능 격차가 가장 크게 나타났다. 또한 C³는 매 시점마다 임베딩과 IWKR를 재계산하지만, O(n) 복잡도와 배치 학습을 통해 실시간 서비스에 적용 가능한 수준의 연산량을 유지한다.
논문의 주요 기여는 다음과 같다. (1) 실무에 적합한 비정상 컨텍스트 밴딧 문제를 공식화하고, 결합된 팔 개념을 정량화하였다. (2) 중요도 가중 Nadaraya‑Watson 회귀와 임베딩 학습을 결합한 C³ 알고리즘을 제안하여, 비선형 보상과 비정상성을 동시에 다루면서도 재학습 비용을 최소화하였다. (3) 이론적 분석을 통해 IWKR의 편향 감소와 수렴성을 보였으며, 실험을 통해 기존 최첨단 방법 대비 유의미한 성능 향상을 입증하였다. 이 연구는 추천 시스템, 온라인 광고, 동적 가격 책정 등 다양한 실시간 의사결정 분야에 바로 적용 가능한 실용적인 솔루션을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기