에이전트가 이끌다: 영향 교환 기반 폐쇄‑루프 랭킹 최적화

Sortify는 대규모 추천 시스템에 적용된 최초의 완전 자동 LLM‑구동 랭킹 최적화 에이전트이다. 오프라인 프록시 지표와 온라인 비즈니스 성과 사이의 비대칭 편향을 두 개의 독립 채널(신념·Belief, 선호·Preference)로 분리해 교정하고, 프레임‑레벨 파라미터를 조정하는 LLM 메타‑컨트롤러와 7개의 관계형 테이블로 구성된 영구 메모리 DB를 통해 라운드 간 학습을 누적한다. 핵심 지표인 Influence Share는 모든 요인의…

저자: Yin Cheng, Liao Zhou, Xiyu Liang

에이전트가 이끌다: 영향 교환 기반 폐쇄‑루프 랭킹 최적화
### 1. 연구 배경 및 문제 정의 추천 시스템에서 랭킹 함수는 유기적 관련성, 광고 입찰가, 가격 경쟁력 등 여러 요인의 가중합으로 구성된다. 이러한 요인들의 영향 비중을 조정하는 것이 비즈니스 성과(GMV, 주문량, 광고수익 등)를 최적화하는 핵심 과제이다. 기존 산업 현장은 오프라인 로그 기반 프록시 지표를 사용해 파라미터 탐색을 수행하고, 그 결과를 온라인 A/B 테스트에 적용한다. 그러나 (1) 오프라인‑온라인 전이 편향이 비대칭적으로 존재하고, (2) 진단 시 신념 오류와 선호 오류가 얽혀 있어 원인 파악이 어렵고, (3) 라운드마다 상태를 초기화해 누적 학습이 이루어지지 않는다. ### 2. Sortify 시스템 아키텍처 #### 2.1 Influence Share 새로운 핵심 지표인 Influence Share는 각 요인의 “영향 점유율”을 0‑100 % 범위로 정량화한다. 기존 Kendall’s τ와 달리 개별 요인의 기여도를 직접 해석 가능하게 하며, 전체 합이 정확히 100 %가 되도록 정규화한다. #### 2.2 Dual‑Channel 프레임워크 - **Belief 채널**: 오프라인 예측값을 온라인 실측값에 매핑하는 선형 전이 모델 \(y_{online}=α·y_{offline}+δ\)을 사용한다. α는 고정(예: 0.8)이고, δ는 라운드 별 잔차에 따라 LMS 방식으로 지속 보정한다. - **Preference 채널**: 제약(예: 주문량 최소치, 광고 수익 목표) 위반에 대한 페널티를 비대칭적 곱셈 가중치 \(λ\)로 조정한다. 위반 압력(violation pressure)을 측정해, 과도한 제약은 λ을 감소, 부족한 제약은 λ을 증가시킨다. 두 채널은 베이즈 의사결정식 \(P(θ|D)·L(a,θ)\)에서 확률(신념)과 효용(선호)으로 명확히 분리돼, 한 채널의 교정이 다른 채널에 간섭하지 않는다. #### 2.3 LLM 메타‑컨트롤러 대형 언어 모델(예: GPT‑4)은 프레임‑레벨 파라미터(δ, λ)만을 조정한다. 프롬프트는 (① 최근 20라운드 에피소드 요약, ② 30건 교정 로그, ③ 현재 잔차와 위반 압력) 등을 포함해 “증거 기반 추론”을 유도한다. 출력은 JSON 스키마(δ, λ, 설명)로 제한하고, 검증 파이프라인을 통해 안전성을 확보한다. #### 2.4 Persistent Memory DB 7개의 관계형 테이블: (1) 오프라인‑온라인 관측, (2) Belief 보정 로그, (3) Preference 보정 로그, (4) LLM 제안 기록, (5) 라운드 메타데이터, (6) 파라미터 스냅샷, (7) 실험 결과 요약. 라운드 종료 시 모든 정보를 저장해 다음 라운드의 초기 베이스라인으로 활용한다. Warm‑start 시 기존 DB를 그대로 로드해 초기 오프라인‑온라인 전이 편향을 즉시 보정한다. ### 3. 운영 흐름 1. **오프라인 탐색**: Optuna를 이용해 5,000 트라이얼을 수행, 후보 파라미터 집합 생성. 2. **Belief/Preference 적용**: 후보 파라미터에 현재 δ와 λ를 적용해 온라인 예상값을 보정. 3. **LLM 제안**: 메모리 DB와 최신 라운드 데이터를 LLM에 전달, δ와 λ의 업데이트 제안 획득. 4. **배포**: 업데이트된 파라미터를 프로덕션에 배포, 4시간 주기로 A/B 테스트 진행. 5. **피드백**: 온라인 실측값을 수집, LMS로 δ 보정, 위반 압력으로 λ 조정, 모두 DB에 저장. 6. **반복**: 위 과정을 Y‑O‑L‑O(You Only Live Once) 루프라 부르며, 실패 시 자동 복구 메커니즘 포함. ### 4. 실험 및 결과 #### 4.1 평가 지표 - **GMV 변화율**, **주문량**, **광고수익**, **오프라인‑온라인 전이 편향(β, δ)**, **LLM 교정 항목 수**, **파라미터 안정성(표준편차)** 등. #### 4.2 Country A Warm‑Start - 7라운드 동안 GMV: –3.6 % → +9.2 % (피크 +12.5 % 주문량) - 오프라인 GMV 상승 (+18.2 %→+41.6 %) 대비 온라인 실제 상승이 크게 개선됨. - LLM 교정 항목: 초기 5개 → 2개 (수렴) - 전이 절편 δ는 라운드 1~3에서 –0.07→–0.02 로 수렴, λ는 1.4→1.1 로 안정화. #### 4.3 Country B Cold‑Start - 23라운드(2단계 탐색) 후 최종 파라미터 구조 확정. - 7일 A/B 테스트: GMV/UU +4.15 %, 광고수익 +3.58 % 달성, 전면 롤아웃 결정. - 메모리 DB를 새로 구축했음에도 동일 스키마 사용으로 빠른 적응 가능. #### 4.4 오프라인‑온라인 전이 분석 - GMV는 낙관적 편향(오프라인 과대예측), 주문량은 보수적 편향(오프라인 과소예측) 등 메트릭별 비대칭성을 정량화. - Belief 채널이 각 메트릭별 δ를 별도 보정함으로써 전체 전이 오류를 60 % 이상 감소. #### 4.5 LLM 교정 효율성 - 교정 수렴 그래프에서 5→2 항목 감소는 라운드당 평균 잔차 감소율 0.018로, 기존 수동 교정 대비 3배 빠른 수렴을 보여준다. #### 4.6 민감도 분석 - δ와 λ의 탐색 범위(

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기