동적 SAE 스티어링으로 데이터 효율적인 선호 정렬
초록
DSPA는 프롬프트‑조건부로 동작하는 희소 자동인코더(SAE) 기반의 추론 시 편향 조정 기법이다. 선호 삼중쌍으로부터 조건부 차이 맵을 구축해 프롬프트 특징을 출력 특징에 연결하고, 토큰‑활성 라텐트를 선택적으로 증강·소거함으로써 모델 가중치를 전혀 수정하지 않는다. Gemma‑2·2B/9B와 Qwen‑3·8B에 적용해 MT‑Bench 점수를 향상시키고 AlpacaEval에서도 경쟁력을 보이며, 제한된 선호 데이터에서도 4.47배 적은 FLOP으로 기존 2단계 파이프라인을 능가한다.
상세 분석
DSPA는 기존 RLHF·DPO와 같은 가중치 업데이트 기반 선호 정렬이 갖는 고비용·불투명성을 극복하고자, 추론 단계에서만 작동하는 희소 자동인코더(SAE) 스티어링을 제안한다. 핵심 아이디어는 두 개의 SAE를 활용하는데, 초기‑중간 레이어의 SAE는 프롬프트를 희소 특징 벡터로 인코딩하고, 후기 레이어의 SAE는 생성 과정에서 활성화되는 특징을 동일한 차원( d_SAE )의 라텐트 공간에 매핑한다. 선호 삼중쌍 (프롬프트 x, 선택 응답 y⁺, 거부 응답 y⁻)을 이용해 각 프롬프트 특징 i에 대해 활성화 밀도 ρ_i(x)를 계산하고, 사전 정의된 백분위수 τ_i를 기준으로 게이트 g_i(x)∈{0,1}를 만든다. 이어서 출력 특징 j의 활성화 밀도 차이 Δ˜ρ_j(x)=˜ρ_j(x,y⁺)−˜ρ_j(x,y⁻)를 구하고, g_i(x)·Δ˜ρ_j를 평균해 조건부 차이 맵 A∈ℝ^{d_SAE×d_SAE}를 얻는다. A의 (i,j) 원소는 “프롬프트 특징 i가 활성화된 경우 출력 특징 j가 선택‑거부 차이를 얼마나 보이는가”를 추정한다.
추론 시에는 현재 프롬프트에 대해 가장 높은 ρ_i를 가진 상위 k개의 프롬프트 특징을 선택하고, 해당 인디케이터 ˆg(x)로 Aᵀ·ˆg(x) 를 계산해 출력 특징에 대한 스코어 s_j(x)를 얻는다. 스코어가 큰 특징은 증강(augmentation), 작은 특징은 소거(ablation) 대상으로 선정한다. 토큰‑레벨에서는 현재 토큰에서 활성화된 라텐트 ˜f_t,j만을 대상으로 α·M_t(α는 하이퍼파라미터, M_t는 현재 라텐트의 최대값) 만큼 증강하거나 0 이하로 클램프한다. 이렇게 하면 “오프‑컨텍스트” 영향을 최소화하면서도 선택된 특징만을 정밀하게 조정한다.
이론적 분석에서는 A의 기대값을 E
댓글 및 학술 토론
Loading comments...
의견 남기기