암묵적 보상 모델링: 클릭·복사 데이터로 편향 없는 LLM 정렬
본 논문은 사용자 클릭·복사와 같은 암묵적 피드백을 활용해 보상 모델을 학습하는 방법인 ImplicitRM을 제안한다. 암묵적 데이터는 명시적 긍정·부정 라벨이 없고, 피드백 발생 확률이 응답마다 다르다는 두 가지 근본적 문제를 가진다. 저자는 데이터를 긍정‑활동, 부정‑활동, 긍정‑수동, 부정‑수동 네 잠재 그룹으로 계층화하고, 각 그룹의 사후 확률을 추정한 뒤, 증거 하한을 최대화하는 학습 목표를 도출한다. 이 목표는 이론적으로 편향이 없음…
저자: Hao Wang, Haocheng Yang, Licheng Pan
1. 연구 배경 및 동기
대형 언어 모델(LLM)의 정렬을 위해 인간 피드백을 활용한 강화학습(RLHF)이 널리 쓰이고 있다. 이 과정에서 핵심은 인간 선호를 정확히 반영하는 보상 모델(RM)을 학습하는 것이지만, 기존 방법은 명시적 선호 데이터(쌍 비교, 점수 라벨 등)에 크게 의존한다. 이러한 데이터는 라벨링 비용이 높고, 규모 확장이 어려워 실무 적용에 제약이 있다. 반면, 사용자가 웹 검색, 문서 작성, 채팅 등에서 남기는 클릭·복사·공유와 같은 암묵적 행동은 별도 라벨링 없이 대량으로 수집 가능하다. 따라서 암묵적 피드백을 활용해 보상 모델을 학습하는 ‘암묵적 보상 모델링(Implicit Reward Modeling)’이 비용 효율적인 대안으로 떠오른다.
2. 암묵적 데이터의 두 근본적 문제
(1) 부정 샘플 부재: 암묵적 데이터는 ‘클릭=긍정 피드백’만을 명시적으로 보여주고, 비클릭은 긍정·부정 여부를 구분할 수 없는 ‘무라벨’ 상태이다. 따라서 전통적인 Positive‑Negative 분류 방식은 적용 불가하고, 무라벨을 부정으로 가정하면 실제 긍정인 샘플을 오인하게 된다.
(2) 사용자 선호 편향: 서로 다른 응답은 사용자에게 피드백을 유도하는 확률이 크게 다르다. 예를 들어, 지식형 QA에서는 만족스러운 답변을 복사하는 경우가 흔하지만, 자유 대화에서는 만족 여부와 무관하게 복사가 거의 일어나지 않는다. 이 이질성은 무라벨 샘플이 동일한 양성 비율을 가진다는 PU 학습의 기본 가정을 깨뜨린다.
3. 제안 방법 – ImplicitRM
3.1 계층화 전략
저자는 각 샘플을 두 잠재 변수(선호 r*∈{0,1}, 행동 a∈{0,1})의 조합으로 4가지 그룹으로 나눈다.
- Positive‑Active(PA): r*=1, a=1 → 관측 피드백 r=1 (클릭)
- Negative‑Active(NA): r*=0, a=1 → 관측 피드백 r=0 (부정 피드백)
- Positive‑Passive(PP): r*=1, a=0 → 관측 피드백 r=0 (무클릭이지만 실제 긍정)
- Negative‑Passive(NP): r*=0, a=0 → 관측 피드백 r=0 (진정한 부정)
관측된 r만으로는 그룹을 직접 알 수 없으므로, 베이즈 정리를 이용해 사후 확률 ϕ_i^{group}=P(r*,a|r_i,x_i) 를 추정한다. 여기서 ˆr*θ(x)는 보상 모델이 예측하는 선호 확률, ˆaψ(x)는 행동(클릭) 발생 확률을 예측하는 별도 모델이다. ε를 더해 0/1 확률이 완전히 0이 되지 않도록 한다.
3.2 학습 목표 도출
관측 데이터에 대한 로그우도 L = (1/|D|) Σ_i log P(r_i|x_i) 를 최대화하고자 하지만, r_i는 잠재 변수에 의존하므로 직접 계산이 불가능하다. 따라서 변분 하한(ELBO)을 사용한다. ELBO는 각 그룹에 대한 로그우도의 가중합 형태이며, ϕ_i^{group} 로 가중한다. 최적화 변수는 θ(보상 모델)와 ψ(행동 모델)이며, 두 모델을 동시에 학습한다. 논문에서는 이 ELBO가 이상적인 L_ideal(정의된 긍정·부정 라벨 기반 손실)의 무편향 추정량임을 정리와 증명을 통해 보인다. 즉, 데이터에 내재된 편향을 완전히 보정한 형태의 손실을 최적화하게 된다.
4. 실험 설정 및 결과
데이터셋: (1) 지식형 QA에서 사용자가 답변을 복사하는 로그, (2) 자유 대화에서 사용자가 피드백을 거의 남기지 않는 로그. 모델: LLaMA‑7B, LLaMA‑13B 등 다양한 규모의 LLM을 보상 모델로 사용. 비교 방법: 기존 PU 학습, 데비아스 보정 방법, 명시적 라벨 기반 상한 모델. 평가 지표: AUC, 정확도, 캘리브레이션 오류, 그리고 RLHF 파이프라인에 적용한 후 정책의 인간 평가 점수.
주요 결과:
- 모든 설정에서 ImplicitRM이 AUC·Accuracy 면에서 기존 PU·데비아스 방법보다 크게 앞섰다. 특히 자유 대화 데이터에서 기존 방법은 0.6 이하의 AUC를 보였으나, ImplicitRM은 0.78 수준을 기록했다.
- 캘리브레이션 측면에서도 실제 선호 확률과 예측 확률 사이의 차이가 최소화되었다.
- 학습된 보상 모델을 PPO 기반 정책 최적화에 사용했을 때, 최종 LLM은 인간 평가에서 평균 0.15점(≈10% 향상) 높은 만족도를 얻었다.
5. 기여 및 향후 연구
- 암묵적 보상 모델링 문제를 공식화하고, 두 핵심 난제를 명확히 정의하였다.
- 네 그룹 계층화와 변분 ELBO 기반 학습 목표를 제시함으로써 이론적으로 무편향임을 증명하였다.
- 다양한 LLM과 데이터셋에서 실험을 통해 실제 적용 가능성을 입증하였다.
향후 연구는 (1) 행동 모델을 다중 행동(클릭·좋아요·공유 등)으로 확장, (2) 선호 라벨을 다차원(정확성·유용성·창의성)으로 세분화, (3) 온라인 학습 환경에서 실시간으로 편향을 추정·보정하는 메커니즘 개발 등을 제안한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기