스케일링 법칙의 놀라운 효용과 논리적 연산과 효율성

본 논문은 AI 분야에서 널리 관찰되는 “스케일링 법칙”이 왜 다양한 모델 아키텍처와 훈련 환경에서도 일관되게 적용되는지를 탐구한다. 전통적인 스케일링 법칙은 훈련 손실 L이 총 컴퓨트 C에 대해 L ≈ E + K·C^{‑κ} 형태의 파워‑법칙으로 감소한다는 경험적 관찰에 기반한다. 여기서 κ는 경험적으로 추정된 지수이며, C는 일반적으로 FLOP 수와 같은 물리적 연산량을 의미한다. 이러한 법칙은 손실 감소가 점점 둔화되는 ‘감소 수익(diminishing returns)’ 현상을 설명하면서도, 향후 모델 성능을 예측하는 실용적인 도구로 활용된다. 하지만 저자는 두 가지 ‘비합리적’ 측면을 지적한다. 첫째, 법칙이 구현 세부사항(정밀도, sparsity, 라우팅 등)과 무관하게 반복적으로 나타난다. 둘째, 손실이 급격히 둔화됨에도 불구하고 실제 AI 발전은 지속되고, 토큰당 비용은 오히려 감소하는 추세를 보인다. 저자는 이 두 현상이 동일한 근원, 즉 “추상화”에 기인한다고 주장한다. 핵심 아이디어는 기존의 C를 “논리적 연산(logical compute)”이라는 추상적 개념으로 재해석하는 것이다. 논리적 연산은 모델이 수행해야 하는 작업량을 의미하며, 이는 밀도 높은, 균일한 정밀도의 레퍼런스 구현을 기준으로 정의된다. 실제 하드웨어·소프트웨어·알고리즘 스택은 이 논리적 연산을 물리적 자원(P·T, 여기서 P는 전력, T는 시간)으로 변환하는 효율성(E logical)이라는 계수를 가진다. 즉, 동일한 논리적 연산량이라도 효율성에 따라 전력·시간 비용이 크게 달라진다. 이를 수식으로 표현하면 물리적 자원 부담은 P·T = C_logical / E_logical이며, 효율성은 논리적 FLOP당 줄(Joule) 단위로 측정된다. 기존 산업 용어인 MFU(Model FLOPs Utilization)와 비교해 보면, MFU는 벤더 피크 FLOP 대비 실제 활용률을 나타내는 반면, E_logical은 실제 전력·시간 대비 논리적 연산량을 직접 측정한다는 점에서 차이가 있다. 다음으로 저자는 효율성의 시간적 성장 모델을 제시한다. 연간 β 번의 두 배 성장(예: β = 0.5이면 연 1.41배)이라고 가정하면 효율성은 E(t) = E₀·2^{βt} 로 증가한다. 물리적 예산 P₀가 일정하다고 하면 누적 논리적 연산은 C(t) = C₀·

스케일링 법칙의 놀라운 효용과 논리적 연산과 효율성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기