학습률 감쇠 없이 사전학습하면 파인튜닝 성능이 향상됩니다
본 논문은 대규모 언어 모델 사전학습 단계에서 학습률(LR) 스케줄링이 후속 감독 파인튜닝(SFT) 성능에 미치는 영향을 조사한다. Warmup‑Stable‑Only(WSO)라는 학습률 감쇠를 배제한 일정이 기존의 Cosine, Linear, Warmup‑Stable‑Decay(WSD) 등 감쇠 기반 스케줄러보다 1B·8B 모델 모두에서 SFT 후 성능이 우수함을 실험을 통해 입증한다. 손실 지형 분석에서는 감쇠 스케줄러가 더 날카로운(mini…
저자: Kazuki Yano, Shun Kiyono, Sosuke Kobayashi
본 논문은 대규모 언어 모델(LLM) 사전학습 단계에서 학습률(LR) 스케줄링이 최종 감독 파인튜닝(SFT) 성능에 미치는 영향을 체계적으로 조사한다. 기존 연구에서는 Cosine, Linear, Warmup‑Stable‑Decay(WSD)와 같은 감쇠 기반 스케줄러가 사전학습 손실을 최소화하는 데 효과적이라고 보고했으며, 실제 많은 최신 모델이 이러한 스케줄러를 채택하고 있다. 그러나 최근 연구에서 사전학습 성능이 반드시 다운스트림 성능을 보장하지 않는다는 점이 제기되면서, 학습률 감쇠가 실제로 바람직한 선택인지에 대한 의문이 제기되었다. 이에 저자들은 Warmup‑Stable‑Only(WSO)라는 간단한 스케줄러를 제안한다. WSO는 warm‑up 단계 이후 학습률을 일정하게 유지하며, 감쇠 단계 자체를 없앤다(α_pre=1.0).
실험은 Llama‑3 아키텍처를 기반으로 1B와 8B 파라미터 모델을 구축하고, FineWeb‑Edu 데이터셋으로 사전학습을 수행했다. 사전학습 단계에서는 네 가지 스케줄러(WSD, Cosine, Linear, WSO)를 각각 α_pre={0.0,0.1,1.0}의 최소 학습률 비율로 변형해 비교하였다. 결과는 다음과 같다.
- 사전학습 검증 손실과 zero‑shot 벤치마크(ARC, OpenBookQA, HellaSwag 등)에서는 α_pre=0.0(즉, 0까지 감쇠)인 WSD, Linear이 가장 좋은 성능을 보였다.
- 반면, SFT 단계에서는 Tulu‑3 SFT mixture을 사용해 AlpacaEval, MMLU, TruthfulQA 등 세 가지 평가 지표를 평균한 결과, WSO(α_pre=1.0)가 모든 모델 규모에서 가장 높은 점수를 기록했다.
또한 중간 학습(mid‑training)과 과다 학습(over‑training) 상황을 추가 실험했다. 중간 학습 단계에서도 α_mid=1.0(감쇠 없음)으로 설정한 WSO를 적용하면, 이후 SFT 성능이 지속적으로 우수했다. 과다 학습(수조 토큰)에서도 동일한 경향이 관찰되어, WSO가 다양한 학습 규모와 단계에 걸쳐 일반화 가능함을 확인했다.
손실 지형 분석에서는 감쇠 스케줄러가 모델을 더 날카로운(minima) 영역으로 몰아넣어 Sharpness 값이 크게 증가한 반면, WSO는 상대적으로 낮은 Sharpness를 유지했다. 평탄한 최소점은 파라미터 변동에 강건하며, 다양한 다운스트림 작업에 대한 전이 학습 시 적응성을 높이는 것으로 해석된다.
논문은 이러한 실험 결과를 바탕으로 두 가지 주요 시사점을 제시한다. 첫째, 사전학습 단계에서 손실 최소화만을 목표로 하는 학습률 감쇠는 최종 파인튜닝 성능을 저해할 수 있다. 둘째, 모델을 공개하거나 다양한 downstream 작업에 활용하려는 경우, 사전학습 시 WSO와 같은 비감쇠 스케줄러를 적용하는 것이 실용적이다. 마지막으로, 전체 파이프라인을 “프리‑트레이닝 → 미드‑트레이닝 → 포스트‑트레이닝”의 연속적인 최적화 문제로 공식화하고, 각 단계에서 최적의 LR 스케줄러 조합을 탐색하는 것이 기존 단계별 최적화보다 더 효과적임을 강조한다.
이 연구는 학습률 스케줄링에 대한 기존 관행에 도전하며, 특히 대규모 LLM을 개발하고 배포하는 실무자들에게 사전학습 단계에서 감쇠를 배제하는 간단하지만 강력한 전략을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기