에피퍼소나 개인 성향과 상황을 분리한 다중 선호 모델링

본 논문은 대형 언어 모델(LLM)의 다중 선호 정렬(Multi‑preference alignment) 문제를 해결하기 위해 ‘EpiPersona’라는 프레임워크를 제안한다. 기존 연구는 사용자 선호를 하나의 고정된 차원 공간에 압축하거나, 과거 피드백을 단순히 검색‑기반으로 활용하는 등, 개인의 고유한 성향(퍼소나)과 순간적인 상황(에피소드)을 명확히 구분하지 못한다는 공통된 한계를 가지고 있다. 이러한 문제는 특히 에피소드 간 전이가 큰 상황이나, 개별 사용자에 대한 피드백이 희소한 경우에 모델의 일반화 능력을 크게 저하시킨다. EpiPersona는 두 단계로 구성된다. 첫 번째 단계인 ‘퍼소나 투사(Persona Projection)’에서는 사용자가 제공한 페어와이즈 선호 피드백 x (예: “응답 A 가 B 보다 선호됨”)을 고차원 토큰 공간 X⊂ℝᴰ에서 저차원 퍼소나 공간 Zₚ⊂ℝᵈ(d≪D)로 매핑한다. 이 매핑은 파라미터화된 귀납적 추론(Parameterized Abductive Reasoning)과 벡터 양자화(VQ) 기반 코딩을 결합해 구현된다. 구체적으로, LLM‑기반 인코더 λ는 프롬프트 P와 피드백 (τᵢ, τⱼ, y) 를 입력받아 잠재적인 이유 r∈ℝᵈ를 출력한다. r은 아직 사용자 간에 공유되지 않은 인스턴스‑레벨 표현이다. 이어서 r을 fθ에 통과시켜 ‘윈도우’ w를 얻고, 사전 정의되지 않은 코드북 {zₚ^(1)…zₚ^(P)} 중 가장 가까운 코드로 양자화한다. 양자화된 코드 zₚ는 모든 사용자가 공유하는 이산 퍼소나 코드이며, 커밋먼트 손실 L_commit을 통해 인코더 출력이 코드와 일치하도록 학습한다. 이렇게 형성된 퍼소나 코드 집합 Zᵤ={zₚ}는 각 사용자의 장기적인 성향을 압축적으로 표현하면서도, 서로 다른 사용자 간에 공통된 구조를 유지한다. 두 번째 단계인 ‘퍼소나‑에피소드 결합(Persona‑Episode Coupling)’에서는 추출된 퍼소나 Zᵤ와 현재 에피소드 e(예: 특정 질문, 도메인, 상황)를 결합해 에피소드‑특정 선호를 예측한다. 두 가지 변형이 제시된다. 1. **EpiPersona‑A**: 퍼소나와 에피소드를 입력으로 받아 자연어 형태의 선호 설명 Prefₑ를 생성한다. 출력은 JSON 형식으로 ‘persona’, ‘value’, ‘intent’, ‘style’ 등 키‑값 쌍을 포함한다. 이 방식은 ‘플러그‑앤‑플레이’ 형태로, LLM‑as‑judge와 같은 downstream task에 바로 활용 가능하도록 설계되었다. 2. **EpiPersona‑B**: Bradley‑Terry 모델을 기반으로 퍼소나와 후보 응답 τₑ를 결합한 스칼라 보상 Rθ를 예측한다. 구체적으로, hθ는 퍼소나 Zᵤ와 응답 τₑ를 동시에 인코딩해 결합 표현을 만든 뒤, ϕ와 W를 통해 최종 점수를 산출한다. 이 구조는 다중 보상 학습이나 정책 최적화와 같은 강화학습 기반 시나리오에 적합하다. 실험은 두 가지 주요 벤치마크를 사용한다. 첫 번째는 ‘LLM‑as‑judge’ 설정으로, 다양한 사용자와 에피소드에 대해 모델이 올바른 선호를 판단하는 정확도를 측정한다. 두 번째는 ‘Pluralistic Reward Learning’으로, 다중 선호를 반영한 보상 함수를 학습해 정책이 사용자 맞춤형 행동을 보이는지를 평가한다. 특히 ‘hard episodic‑shift’ 상황(에피소드 간 차이가 큰 경우)에서 EpiPersona는 평균 성능 저하가 0.043에 불과했으며, 기존 SOTA(예: SOTA‑A, SOTA‑B)는 각각 0.177, 0.144 정도로 크게 떨어졌다. 또한, 사용자당 피드백이 5개 이하인 극히 희소한 데이터 환경에서도 EpiPersona‑A는 6%~9%의 정확도 향상을 기록했다. Ablation 연구에서는 (i) VQ 코드북을 제거한 경우 퍼소나 군집화가 붕괴해 전체 성능이 12% 감소하고, (ii) 귀납적 추론 없이 직접 매핑만 사용할 경우 학습 안정성이 크게 저하되는 것을 확인했다. 이는 파라미터화된 귀납적 추론과 VQ‑기반 코드북이 각각 퍼소나 추출과 공유에 필수적임을 입증한다. 한계점으로는 코드북 크기 P와 차원 d에 대한 하이퍼파라미터 민감도가 존재한다는 점, 그리고 현재는 페어와이즈 피드백만을 전제로 하므로 순위 전체, 텍스트‑요약형 선호 등 다른 피드백 형태에 대한 확장성이 제한적이라는 점을 언급한다. 향후 연구에서는 (a) 동적 코드북 업데이트 메커니즘, (b) 멀티모달(텍스트·이미지·음성) 피드백 통합, (c) 인간 사용자와의 인터랙션을 통한 퍼소나 설명 검증 등을 통해 실용성을 높일 계획이다. 결론적으로, EpiPersona는 ‘퍼소나와 상황을 명시적으로 분리·결합’함으로써, 다중 사용자·다중 상황 환경에서 LLM이 보다 일관되고 개인화된 판단을 내릴 수 있게 하는 중요한 진전을 제공한다. 이는 향후 인간‑중심 AI, 맞춤형 챗봇, 그리고 공정성·다양성을 고려한 대규모 언어 모델 배포에 있어 핵심적인 기술적 토대를 마련한다.

에피퍼소나 개인 성향과 상황을 분리한 다중 선호 모델링

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기