표준 트랜스포머, Hölder 함수 근사와 비모수 회귀에서 최소극대 속도 달성

본 논문은 표준 트랜스포머가 다변량 Hölder 공간 \(C^{s,\lambda}\) 에 속하는 함수를 任의 정밀도로 근사할 수 있음을 증명하고, 이를 이용해 비모수 회귀 문제에서 최소극대(Minimax) 최적 수렴률을 달성한다는 이론적 결과를 제시한다. 또한 트랜스포머 구조를 ‘크기 튜플’과 ‘차원 벡터’라는 두 메트릭으로 정밀히 정의하고, Lipschitz 상수와 기억 용량에 대한 상한을 도출한다.

저자: Yanming Lai, Defeng Sun

본 논문은 “표준 트랜스포머가 Hölder 연속 함수 \(C^{s,\lambda}\) 를 근사하고, 비모수 회귀에서 최소극대(Minimax) 최적 속도를 달성한다”는 두 가지 주요 목표를 가지고 있다. 먼저, 저자들은 트랜스포머 모델을 수학적으로 정의한다. 트랜스포머는 임베딩 레이어, 피드포워드 블록, 셀프‑어텐션 레이어로 구성되며, 각 레이어는 깊이 \(L_k\), 폭 \(W_k\), 헤드 수 \(H_k\), 헤드 차원 \(S_k\) 로 파라미터화된다. 이를 ‘크기 튜플’ \(\{(L_k,W_k),(H_k,S_k)\}_{k=0}^{K}\)와 입력·출력 차원을 포함한 ‘차원 벡터’ \(\mathbf d=(d_{\text{in}},d_0,\dots,d_K,d_{\text{out}})\) 로 정밀히 기술한다. 이러한 메트릭은 기존 연구에서 흔히 사용되던 ‘층 수’와 ‘폭’만을 고려한 거친 설명을 넘어, 어텐션 헤드와 헤드 차원의 영향을 명시적으로 반영한다. 다음으로, 저자들은 Hölder 공간 \(C^{s,\lambda}(

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기