동적 SAE 스티어링으로 데이터 효율적인 선호 정렬

동적 SAE 스티어링으로 데이터 효율적인 선호 정렬
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DSP​A는 프롬프트‑조건부로 동작하는 희소 자동인코더(SAE) 기반의 추론 시 편향 조정 기법이다. 선호 삼중쌍으로부터 조건부 차이 맵을 구축해 프롬프트 특징을 출력 특징에 연결하고, 토큰‑활성 라텐트를 선택적으로 증강·소거함으로써 모델 가중치를 전혀 수정하지 않는다. Gemma‑2·2B/9B와 Qwen‑3·8B에 적용해 MT‑Bench 점수를 향상시키고 AlpacaEval에서도 경쟁력을 보이며, 제한된 선호 데이터에서도 4.47배 적은 FLOP으로 기존 2단계 파이프라인을 능가한다.

상세 분석

DSP​A는 기존 RLHF·DPO와 같은 가중치 업데이트 기반 선호 정렬이 갖는 고비용·불투명성을 극복하고자, 추론 단계에서만 작동하는 희소 자동인코더(SAE) 스티어링을 제안한다. 핵심 아이디어는 두 개의 SAE를 활용하는데, 초기‑중간 레이어의 SAE는 프롬프트를 희소 특징 벡터로 인코딩하고, 후기 레이어의 SAE는 생성 과정에서 활성화되는 특징을 동일한 차원( d_SAE )의 라텐트 공간에 매핑한다. 선호 삼중쌍 (프롬프트 x, 선택 응답 y⁺, 거부 응답 y⁻)을 이용해 각 프롬프트 특징 i에 대해 활성화 밀도 ρ_i(x)를 계산하고, 사전 정의된 백분위수 τ_i를 기준으로 게이트 g_i(x)∈{0,1}를 만든다. 이어서 출력 특징 j의 활성화 밀도 차이 Δ˜ρ_j(x)=˜ρ_j(x,y⁺)−˜ρ_j(x,y⁻)를 구하고, g_i(x)·Δ˜ρ_j를 평균해 조건부 차이 맵 A∈ℝ^{d_SAE×d_SAE}를 얻는다. A의 (i,j) 원소는 “프롬프트 특징 i가 활성화된 경우 출력 특징 j가 선택‑거부 차이를 얼마나 보이는가”를 추정한다.

추론 시에는 현재 프롬프트에 대해 가장 높은 ρ_i를 가진 상위 k개의 프롬프트 특징을 선택하고, 해당 인디케이터 ˆg(x)로 Aᵀ·ˆg(x) 를 계산해 출력 특징에 대한 스코어 s_j(x)를 얻는다. 스코어가 큰 특징은 증강(augmentation), 작은 특징은 소거(ablation) 대상으로 선정한다. 토큰‑레벨에서는 현재 토큰에서 활성화된 라텐트 ˜f_t,j만을 대상으로 α·M_t(α는 하이퍼파라미터, M_t는 현재 라텐트의 최대값) 만큼 증강하거나 0 이하로 클램프한다. 이렇게 하면 “오프‑컨텍스트” 영향을 최소화하면서도 선택된 특징만을 정밀하게 조정한다.

이론적 분석에서는 A의 기대값을 E


댓글 및 학술 토론

Loading comments...

의견 남기기