대규모 언어 모델 인컨텍스트 학습의 적대적 강건성 이론

본 논문은 선형 자기‑주의 트랜스포머를 대상으로, Wasserstein 거리 기반의 분포 강건 메타‑학습 프레임워크를 제시한다. 모델 용량 $m$와 인컨텍스트 샘플 수 $N$에 대해, 적대적 교란 강도 $ρ$가 증가할 때 최악의 메타‑리스크가 어떻게 변하는지를 비대칭적 비점근적 상한으로 정량화한다. 결과적으로 $ρ_{\max}\propto\sqrt{m}$, $N_{ρ}-N_{0}\propto ρ^{2}$라는 두 가지 스케일링 법칙을 도출하고, …

저자: Di Zhang

**1. 서론** 대규모 언어 모델(LLM)이 파라미터 업데이트 없이 몇 개의 예시만으로 새로운 작업을 수행하는 인컨텍스트 학습(ICL) 능력은 최근 급격히 주목받고 있다. 기존 이론은 베이지안 추론 혹은 암시적 경사 하강을 통해 ICL을 설명하지만, 테스트 작업이 사전 학습 데이터와 동일한 분포를 따른다는 가정을 전제로 한다. 실제 서비스에서는 악의적 공격이나 예기치 않은 데이터 이동으로 인해 이 가정이 깨질 위험이 있다. 본 논문은 이러한 적대적 분포 이동에 대한 최악의 성능 보장을 제공하는 이론적 프레임워크를 제시한다. **2. 관련 연구** ICL 이론, 분포 강건 최적화(DRO), 그리고 LLM 안전성 연구를 연결한다. 특히, χ²‑divergence 기반의 강건 ICL 연구(

대규모 언어 모델 인컨텍스트 학습의 적대적 강건성 이론

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기