대형 언어 모델의 선호도 정합성: 알려지지 않은 링크 함수에 대한 강건한 접근
📝 원문 정보
- Title: Semiparametric Preference Optimization: Your Language Model is Secretly a Single-Index Model
- ArXiv ID: 2512.21917
- 발행일: 2025-12-26
- 저자: Nathan Kallus
📝 초록 (Abstract)
대형 언어 모델(LLMs)을 선호 데이터와 일치시키는 일반적인 방법은 관찰된 선호와 잠재적 보상 사이의 알려진 연결 함수(예: 로짓 브라들리-테리 연결)를 가정합니다. 이 연결 함수의 오차 지정은 추론된 보상과 학습된 정책의 불일치를 초래할 수 있습니다. 본 논문에서는 알려지지 않은 제약 없는 링크 함수에 대한 선호도 정합성을 연구합니다. f-분산 제약 조건 하에서 보상 최대화의 실현 가능성은 정책 클래스 내에서 반파라메트릭 단일 인덱스 이진 선택 모델을 유발하며, 여기서 스칼라 정책 종속 인덱스가 모든 시연에 대한 의존성을 포착하고 나머지 선호 분포는 제약이 없습니다. 경제학에서는 이러한 모델이 식별 가능한 유한 차원 구조적 매개변수를 가정하고 추정하지만, 본 논문은 보상 함수가 암시적으로 포함된 정책 학습에 초점을 맞추며 최적의 정책까지의 오류 분석을 수행하고 식별 불가능한 비파라메트릭 인덱스를 허용합니다. 알려지지 않은 링크에 강건한 선호도 최적화 알고리즘을 개발하고 일반적인 함수 복잡성 측정으로 수렴 보장을 증명합니다. 이는 LLM 정합성을 경험적으로 입증하며, 코드는 https://github.com/causalml/spo/에서 이용 가능합니다.💡 논문 핵심 해설 (Deep Analysis)

이 모델에서는 정책 종속 인덱스가 모든 시연에 대한 의존성을 포착하고 나머지 선호 분포는 제약이 없다. 경제학에서와 달리 논문은 식별 가능한 유한 차원 구조적 매개변수를 가정하지 않고, 대신 보상 함수가 암시적으로 포함된 정책 학습에 초점을 맞추며 최적의 정책까지의 오류 분석을 수행한다. 알려지지 않은 링크에 강건한 선호도 최적화 알고리즘을 개발하고 일반적인 함수 복잡성 측정으로 수렴 보장을 증명하며, 이를 경험적으로 LLM 정합성을 입증한다.
📄 논문 본문 발췌 (Excerpt)
📸 추가 이미지 갤러리

Reference
이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다.
저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.