친구와함께 위험제어추천시스템의 집단조작
위험 제어를 위해 사용자 “관심없음” 피드백을 활용하는 최신 추천 시스템이 집단적인 악의적 보고에 취약함을 실증한다. 1% 규모의 협업 그룹이 전체 사용자에게 제공되는 nDCG를 최대 20% 감소시킬 수 있음을 대규모 영상 플랫폼 데이터로 보여주며, 개별 아이템 그룹을 선택적으로 억제하는 것은 어려움을 확인한다. 개인 수준의 위험 임계값 적용이 이러한 공격을 완화한다는 방안을 제시한다.
저자: Giovanni De Toni, Cristian Consonni, Erasmo Purificato
본 논문은 온라인 플랫폼에서 사용자에게 제공되는 “관심없음”(Not Interested) 버튼과 같은 부정 피드백을 활용해 위험‑제어(rerisk‑controlling) 추천 시스템을 구현하는 최근 연구 흐름을 비판적으로 검토한다. 위험‑제어 시스템은 컨포멀 리스크 컨트롤 이론을 기반으로, 사용자‑아이템 인터랙션으로부터 위험 점수 r(i,u) 를 학습하고, 전체 사용자 집단에 대해 사전에 정의된 위험 한계 α 이하가 되도록 전역 임계값 λ를 설정한다. 이때 필터링 단계에서 r(i,u) 가 λ 보다 높으면 해당 아이템을 추천 후보에서 제외하고, 나머지 아이템을 기존 랭킹 모델에 의해 정렬해 최종 k 개를 사용자에게 제공한다.
논문은 이러한 설계가 집단적인 전략적 보고에 취약하다는 점을 이론·실험적으로 입증한다. 먼저, Theorem 1을 통해 협업 사용자가 고의적으로 “관심없음”을 남기면 경험적 위험 \(\hat{R}\)이 인위적으로 상승하고, 시스템은 이를 보정하기 위해 더 보수적인 λ값을 선택한다는 메커니즘을 수학적으로 증명한다. 결과적으로 전체 필터링 강도가 강화돼 정상 사용자가 받는 추천 품질이 저하된다.
공격 전략은 세 가지로 설계되었다. (1) 무작위 보고: 사용자가 보는 아이템 중 일정 비율(≤1%)을 무작위로 보고한다. (2) 고위험 집중 보고: 위험 점수가 높은 아이템을 우선적으로 보고한다. (3) 혼합 전략: 무작위와 고위험 보고를 혼합해 보고 비율을 조절한다. 실험에서는 고위험 집중 보고가 가장 큰 품질 저하를 일으키며, 특히 위험 점수 r(i,u) 가 사전 편향을 가지고 있는 경우(예: 특정 카테고리 아이템이 원래 위험도가 낮게 추정된 경우) 효과가 증폭된다.
데이터는 중국의 대형 영상 공유 플랫폼 Kua시우(Kuaishou)에서 수억 건의 사용자‑아이템 인터랙션을 사용했으며, “관심없음” 피드백은 전체 인터랙션의 0.002%에 불과한 극히 희소한 신호임을 확인한다. 그럼에도 불구하고 전체 사용자 중 1%에 해당하는 40명의 협업 사용자가 위 세 전략 중 하나를 적용하면, 비협업 사용자의 nDCG가 최악의 경우 20%까지 감소한다. Recall도 유사하게 감소했으며, 아이템 노출 빈도는 전체적으로 고르게 감소했지만 특정 그룹(예: 정치·사회·음악 등)만을 선택적으로 억제하는 것은 불가능했다. 이는 위험‑제어 필터가 아이템 그룹 정보를 전혀 사용하지 않기 때문에 발생하는 한계이다.
완화 방안으로 저자들은 전역 임계값 대신 사용자별 맞춤형 임계값 λ_u를 도입하는 방법을 제안한다. 각 사용자의 개인 위험 관측값을 기반으로 개별 임계값을 계산하면, 협업 사용자의 보고가 전체 시스템에 미치는 파급 효과가 크게 약화된다. 실험에서는 개인화 임계값 적용 시 nDCG 감소가 5% 이하로 억제되었으며, 위험 보장은 여전히 α 수준 이하로 유지되었다.
논문은 다음과 같은 주요 기여를 제시한다. 첫째, 협업 사용자가 “관심없음” 피드백을 전략적으로 활용할 경우 위험‑제어 보장이 오히려 강화돼 전체 시스템의 품질이 저하되는 역효과를 이론적으로 규명했다. 둘째, 현실적인 보고 전략을 설계하고 대규모 실제 데이터에 적용해 1% 규모의 작은 집단도 전체 사용자 경험에 큰 영향을 미칠 수 있음을 실증했다. 셋째, 위험‑제어 시스템이 아이템 그룹에 대한 차별적 억제는 불가능함을 확인해, 현재 설계가 특정 콘텐츠를 목표로 하는 공격에 대한 방어 능력이 제한적임을 지적했다. 넷째, 개인화 임계값을 도입해 전역 보장을 개인 수준으로 전이시키는 간단하지만 효과적인 완화 메커니즘을 제안하고, 이를 실험적으로 검증했다.
이 연구는 위험‑제어 추천 시스템이 실제 운영 환경에서 악의적 집단 행동에 의해 쉽게 교란될 수 있음을 경고한다. 특히 EU 디지털 서비스 법(DSA) 등 규제 프레임워크가 요구하는 사전 위험 평가에 이러한 공격 시나리오를 포함시켜야 함을 강조한다. 플랫폼 운영자는 전역 보장보다 개인화 보장을 우선 고려하고, 피드백 신호의 희소성 및 악용 가능성을 지속적으로 모니터링해야 한다는 정책적 시사점을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기