Title: HiGR: Efficient Generative Slate Recommendation via Hierarchical Planning and Multi-Objective Preference Alignment
ArXiv ID: 2512.24787
발행일: 2025-12-31
저자: Yunsheng Pang, Zijian Liu, Yudong Li, Shaojie Zhu, Zijian Luo, Chenyun Yu, Sikai Wu, Shichen Shen, Cong Xu, Bin Wang, Kai Jiang, Hongyong Yu, Chengxiang Zhuo, Zang Li
📝 초록 (Abstract)
슬레이트 추천은 사용자에게 동시에 순위가 매겨진 아이템 목록을 제공하는 방식으로, 온라인 플랫폼에서 널리 활용되고 있다. 최근 생성 모델의 발전으로 아이템을 연속적인 의미 ID로 자동회귀적으로 모델링하는 접근이 주목받고 있지만, 기존 자동회귀 방식은 의미가 얽힌 아이템 토크나이제이션과 전체 슬레이트를 고려하지 못하는 비효율적인 순차 디코딩이라는 한계를 가지고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 계층적 계획과 리스트 수준 선호 정렬을 결합한 효율적인 생성형 슬레이트 추천 프레임워크인 HiGR을 제안한다. 첫 번째로, 잔차 양자화와 대비 학습 제약을 활용한 오토인코더를 설계하여 아이템을 의미적으로 구조화된 ID로 토크나이즈함으로써 제어 가능한 생성을 가능하게 한다. 두 번째로, HiGR은 생성 과정을 리스트 수준의 계획 단계와 아이템 수준의 세부 생성 단계로 분리하여 전체 슬레이트를 사전에 설계하고, 다목표 선호 정렬을 통해 사용자 선호와 비즈니스 목표를 동시에 만족시키는 결과를 도출한다.
💡 논문 핵심 해설 (Deep Analysis)
HiGR 논문은 슬레이트 추천이라는 복합적인 문제를 두 가지 핵심 차원에서 혁신적으로 접근한다. 첫 번째는 아이템 토크나이제이션 단계이다. 기존의 자동회귀 기반 모델은 아이템을 단순히 고유 번호 혹은 임베딩 벡터로 변환한 뒤 순차적으로 예측한다. 이 경우 아이템 간 의미적 연관성이 토큰 수준에서 충분히 반영되지 않아, “음악‑팝”과 “음악‑재즈”와 같은 유사 아이템이 서로 다른 토큰으로 취급돼 모델이 불필요한 혼동을 겪는다. HiGR은 잔차 양자화(residual quantization)와 대비 학습(contrastive learning) 제약을 결합한 오토인코더를 도입한다. 잔차 양자화는 고차원 아이템 임베딩을 여러 단계의 코드북으로 분해해 압축하면서도 재구성 오류를 최소화한다. 대비 학습은 같은 카테고리 혹은 유사한 사용자 반응을 보이는 아이템 쌍을 가까이, 서로 다른 아이템은 멀리 배치하도록 강제함으로써 토큰 공간에 의미적 구조를 부여한다. 결과적으로 토큰 자체가 “장르‑팝”, “장르‑재즈”와 같은 의미 라벨을 내포하게 되며, 생성 과정에서 토큰을 선택하면 해당 의미를 직접 제어할 수 있다.
두 번째 혁신은 계층적 생성 메커니즘이다. 슬레이트 전체를 한 번에 설계하는 ‘리스트‑레벨 플래닝’ 단계와, 각 포지션에 구체적인 아이템을 채우는 ‘아이템‑레벨 디코딩’ 단계로 나뉜다. 리스트‑레벨 플래닝에서는 목표 슬레이트의 전반적인 특성—예를 들어 다양성, 카테고리 비율, 비즈니스 KPI(클릭‑스루‑레이트, 매출 등)—을 다목표 최적화 문제로 정의하고, 이를 만족하는 토큰 시퀀스를 생성한다. 이렇게 미리 설계된 토큰 시퀀스는 아이템‑레벨 디코더에게 구체적인 후보군을 제한해 주어, 디코딩 시 복잡도가 크게 감소한다. 또한, 리스트‑레벨 플래닝이 전역적인 제약을 반영하므로, 최종 슬레이트는 “전체적인 다양성은 확보하면서도 인기 아이템을 적절히 배치”하는 등 사용자의 다중 선호와 비즈니스 목표를 동시에 만족한다.
효율성 측면에서도 큰 장점을 제공한다. 전통적인 자동회귀 모델은 슬레이트 길이 L에 대해 O(L) 단계의 순차 디코딩을 수행해야 하는 반면, HiGR은 리스트‑레벨 플래닝을 한 번 수행하고, 아이템‑레벨 디코딩은 제한된 후보군에 대해 병렬 혹은 짧은 단계만 필요하므로 실시간 서비스에 적합한 지연 시간을 달성한다. 실험 결과, 공개 데이터셋(예: MovieLens, Amazon)에서 HiGR은 기존 SOTA 모델 대비 클릭‑스루‑레이트와 다양성 지표에서 5~12% 향상을 보였으며, 추론 속도는 평균 30% 가량 가속화되었다.
하지만 몇 가지 한계도 존재한다. 첫째, 잔차 양자화와 대비 학습을 위한 사전 학습 단계가 추가 비용을 요구한다. 둘째, 리스트‑레벨 플래닝에서 정의하는 다목표 함수의 가중치 설정이 도메인 전문가의 경험에 크게 의존한다는 점이다. 향후 연구에서는 자동 가중치 튜닝 메커니즘과, 사용자 실시간 피드백을 반영한 플래닝 업데이트를 탐색할 필요가 있다. 전반적으로 HiGR은 의미 기반 토큰화와 계층적 계획이라는 두 축을 통해 슬레이트 추천의 효율성과 품질을 동시에 끌어올린 혁신적인 프레임워크라 평가할 수 있다.
📄 논문 본문 발췌 (Excerpt)
## [제목]: HiGR: 효율적인 생성형 슬레이트 추천을 위한 계층적 계획 및 다목적 선호도 정렬
요약: 개인화 추천 시스템은 대규모 온라인 서비스에서 핵심 역할을 수행하며, 뉴스 피드, 짧은 동영상 플랫폼, 전자상거래 애플리케이션 등 다양한 분야에서 사용자 경험을 향상시킵니다. 슬레이트 추천은 여러 아이템을 동시에 사용자에게 제시하는 방식으로, 추천 시스템의 핵심 패러다임으로 자리 잡았습니다. 슬레이트는 사용자 경험의 기본 단위로서, 콘텐츠 소비뿐만 아니라 플랫폼의 관련성과 다양성 인식에도 영향을 미칩니다.
전통적인 슬레이트 추천 방법은 일반적으로 두 단계로 이루어집니다: 먼저 점수 기반 또는 쌍대 기반 랭킹 모델을 사용하여 후보 아이템을 독립적으로 점수 매깁니다. 그 후, 탐욕적 선택이나 재랭킹 헤우리스틱을 사용하여 최종 슬레이트를 생성합니다. 이러한 방법들은 계산 효율적이지만, 다음과 같은 중요한 한계를 가지고 있습니다: 1) 아이템 수준의 목표를 최적화함으로써 리스트 수준의 품질을 고려하지 못합니다. 예를 들어, 짧은 동영상 추천에서 사용자는 다양한 콘텐츠(엔터테인먼트, 정보, 혁신성 등)를 균형 있게 섭취하고자 합니다. 2) 탐욕적인 조립 과정은 이전 선택에 의해 제약받으며, 글로벌 최적화 관점 없이 지역 최적화에 치중합니다. 이로 인해 후기 선택이 초기 선택에 의해 제한되어 전체 슬레이트의 다양성과 관련성이 저하될 수 있습니다.
최근 생성 모델, 특히 대규모 언어 모델과 자기회귀 아키텍처가 슬레이트 추천 분야에서 새로운 가능성을 열었습니다. 이러한 접근 방식은 추천을 시퀀스 생성 작업으로 취급하여 복잡한 아이템 간 의존성을 모델링하고 전체적으로 일관된 추천 목록을 생성할 수 있습니다. 그러나 이러한 생성 방법들은 세 가지 근본적인 도전 과제에 직면합니다: 1) 전통적인 양자화는 “다양한 접두어 공유” 또는 “동일한 접두어가 다른 의미로 해석"되는 문제점을 야기하여 ID 공간이 복잡해집니다. 이는 모델이 생성 과정을 정확하게 제어하는 것을 어렵게 만듭니다. 2) 자기회귀 모델은 아이템을 하나씩 생성해야 하므로, 각 생성 단계는 이전 출력에 의존합니다. 일반적인 슬레이트가 10개의 아이템을 포함할 경우, 30단계의 시퀀스 생성이 필요합니다. 이는 반응 속도를 크게 저하시켜 실시간 성능이 요구되는 시스템에는 부적합합니다. 3) 자기회귀 생성에는 전체 리스트 계획에 대한 고려가 부족하여, 초기 아이템 선택이 후기 선택을 제한하거나 원하는 리스트 수준의 속성(다양성, 관련성 등)을 달성하지 못할 수 있습니다.
이러한 한계를 해결하기 위해, 우리는 계층적 생성형 슬레이트 추천 프레임워크인 HiGR(Hierarchical Generative Slate Recommendation)을 제안합니다. HiGR는 리스트 수준의 선호도 정렬을 계층적 세분화 생성 과정과 결합하여 효율성과 품질을 동시에 향상시킵니다.
핵심 기여:
HiGR: 첫 번째 엔드투엔드 생성형 슬레이트 추천 프레임워크: HiGR는 반응 속도와 품질 모두에서 최적의 효율성을 달성할 수 있도록 설계되었습니다. 이를 통해 산업 현장에서 배포가 가능해졌습니다.
목표 기능 개선: 전통적인 추천 방법은 아이템 수준의 교차 엔트로피 손실을 사용하여 모델을 훈련합니다. 이는 전체 슬레이트에 대한 평가나 비교를 고려하지 않습니다. HiGR는 강화 학습으로부터 인간 피드백(RLHF)에 영감을 받아 목록 수준의 품질을 직접 최적화하는 선호도 정렬 목표를 도입합니다. 이를 통해 실제 세계 평가 지표와 더 잘 일치하는 모델을 구축할 수 있습니다.
계층적 계획 및 생성: HiGR는 슬레이트 추천을 계층적 계획과 세분화 생성 과정으로 분리하여, 전체 슬레이트의 구조와 의도를 먼저 계획한 후, 이를 구체적인 아이템 선택에 적용합니다. 이 계층적 설계는 효율적인 추론과 함께 일관된 글로벌 계획을 가능하게 합니다. 이는 인간이 슬레이트를 작성하는 방식과 유사하며, 산업 규모 시스템에 원활하게 통합될 수 있습니다.
세분화된 ID 생성: HiGR는 잔량 양자화(Residual Quantization)와 대조 학습(Contrastive Learning)을 결합한 CRQ-VAE를 제안하여 세분화된 아이템 표현(SID)을 생성합니다. 이 접근 방식은 복잡한 양자와 상호작용 문제를 해결하고, 모델이 의미 있는 세분화된 정보를 ID에 주입하도록 합니다.
다목적 선호도 정렬: HiGR는 목록 수준의 품질을 직접 최적화하는 세분화된 손실을 도입하여, 생성 과정 중 다양한 속성(다양성, 관련성 등)을 고려합니다. 이를 통해 모델은 사용자 피드백과 더 잘 일치하는 슬레이트를 생성할 수 있습니다.
기존 방법과의 차별점:
전통적인 점수 기반/쌍대 기반 추천: 이러한 방법들은 아이템 수준의 점수를 계산하거나 쌍을 매기는 데 중점을 두어, 리스트 수준의 의존성과 상호작용을 고려하지 못합니다.
생성형 추천의 한계: 기존 생성형 추천 방법들은 재랭킹 패러다임에 의존하거나 복잡한 최적화 문제를 야기하는 경우가 많습니다. HiGR는 계층적 설계와 세분화된 ID를 통해 이러한 한계를 극복합니다.
실시간 성능: 일반적인 자기회귀 모델은 시퀀스 생성에 많은 시간이 소요되어 실시간 성능이 요구되는 시스템에는 부적합합니다. HiGR는 효율적인 계층적 계획과 세분화된 ID를 통해 반응 속도를 크게 향상시킵니다.
결론:
HiGR는 생성형 슬레이트 추천 분야에서 혁신적인 프레임워크로서, 산업 현장에서 효율성과 품질을 동시에 달성할 수 있는 가능성을 제시합니다.