MXFP4 양자화 혁신: 블록‑와이즈 학습 변환으로 아웃라이어 극복
** BATQuant은 MXFP4 형식의 4비트 양자화에서 발생하는 아웃라이어 문제를 블록‑와이즈 어핀 변환과 전역·개별 크로네커 분해(GPK)로 해결한다. 변환을 MXFP 블록 크기에 맞추어 에너지 전이를 차단하고, 학습 가능한 클리핑으로 잔여 아웃라이어를 억제한다. 실험 결과, 멀티모달·대규모 언어 모델에서 W4A4KV16 설정에 최대 96.43%의 정확도 회복을 달성하며 기존 PTQ 기법을 크게 앞선다. **
저자: Ji-Fu Li, Manyi Zhang, Xiaobo Xia
**
본 논문은 최신 대규모 언어 모델(LLM) 및 멀티모달 대규모 언어 모델(MLLM)에서 메모리·연산 효율을 극대화하기 위해 등장한 마이크로 스케일링 부동소수점(MXFP) 포맷, 특히 4‑bit MXFP4(E2M1) 양자화의 실용적 한계를 짚고, 이를 극복하기 위한 새로운 포스트‑트레이닝 양자화(PTQ) 기법인 BATQuant을 제안한다.
**배경 및 문제점**
기존 PTQ 연구는 주로 정수(INT) 포맷에 초점을 맞추었으며, 회전 기반 기법(QuaRot, SpinQuant)이나 블록‑회전(BRQ) 등은 전역 직교 변환을 통해 아웃라이어를 분산시켜 INT4 양자화에서 성공을 거두었다. 그러나 MXFP4는 32‑element 블록마다 하나의 스케일링 팩터를 공유하는 특성상, 전역 회전이 블록 경계를 넘어 아웃라이어 에너지를 전파하면 블록‑스케일링이 왜곡되고, 새로운 극단값이 생성된다. 또한 Hadamard와 같은 이진 회전은 블록 내부에 양극성(양/음) 이중 피크를 만들어 4‑bit 제한된 양자화 구간을 비효율적으로 사용한다. 이러한 포맷‑불일치는 기존 회전 기반 PTQ가 MXFP4에 적용될 때 급격한 성능 저하를 초래한다.
**BATQuant의 핵심 아이디어**
1. **블록‑와이즈 어핀 변환(BAT)**
- 변환 행렬을 MXFP 블록 크기(g=32)와 동일한 차원으로 제한하고, 각 블록마다 독립적인 어핀 행렬 P_i ∈ ℝ^{g×g}를 학습한다.
- 어핀 변환은 선형 변환 후 오프셋을 추가하는 형태이며, 직교성 제약을 완화해 손실 최소화에 최적화된 변환을 자유롭게 찾는다.
- 블록‑단위 변환은 아웃라이어가 동일 블록 내에서만 재분배되도록 하여, 블록‑스케일링이 실제 동적 범위를 정확히 포착하도록 만든다.
2. **전역·개별 크로네커 분해(GPK)**
- 파라미터 효율성을 위해 P_i를 전역 행렬 A와 블록‑특정 행렬 B_i의 텐서곱 형태(P_i = B_i ⊗ A)로 분해한다.
- A는 모든 블록이 공유하고, B_i는 각 블록마다 별도로 학습한다. 이 설계는 전체 파라미터 수를 N·g에서 g₁ + k·g₂ 로 크게 감소시킨다(예: 74%~79% 감소).
- 크로네커 곱의 벡터화 특성을 이용해 행렬‑벡터 연산 복잡도를 O(S·N·(g₁+g₂)) 로 유지, 추론 시 추가 연산 비용을 최소화한다.
3. **블록‑와이즈 학습 클리핑**
- 변환 후에도 잔여 아웃라이어가 존재할 수 있으므로, 각 블록마다 동적으로 조정되는 클리핑 상한·하한 β_max_i, β_min_i 를 도입한다.
- β는 시그모이드(σ)와 학습 가능한 스칼라 α_i 로 정의되어, 블록 내 최소·최대값에 비례하는 비율을 자동으로 학습한다.
- 이를 통해 양자화 구간을 과도하게 확장시키는 극단값을 억제하고, MXFP4의 제한된 7개의 양수 값(0.5~6.0) 활용도를 높인다.
**학습 목표 및 최적화**
캘리브레이션 데이터셋 D_cal 에 대해 전체‑정밀 레이어 출력 F_l와 양자화 출력 Ŷ_l 사이의 L2 손실을 최소화한다. 손실 함수는 어핀 변환 파라미터와 클리핑 파라미터를 동시에 최적화하도록 설계되었으며, 기존 GPTQ 기반 근사 Hessian 정보 활용 없이도 소량의 캘리브레이션 샘플만으로 충분히 수렴한다.
**시스템 통합**
BATQuant은 Transformer 아키텍처 전반에 삽입된다.
- **MLP 모듈**: up_proj·gate_proj 전후에 P_up, down_proj 전후에 P_down 적용.
- **Self‑Attention**: qkv_proj 전후에 P_qkv, o_proj 전후에 P_o, KV 캐시 각각에 P_k·P_v 적용(비전 트랜스포머는 KV 캐시가 없으므로 P_qkv·P_o만 사용).
- 가중치‑측 변환은 오프라인에 선형 레이어와 합쳐 저장하고, 활성화‑측 변환은 추론 시 온라인으로 적용한다.
- 양자화 연산은 MXFP4·MXFP8 포맷으로 수행하고, LayerNorm·RoPE·Attention Score 등은 BF16 유지해 정밀도 손실을 최소화한다.
**실험 및 결과**
- **모델**: Qwen3‑8B (LLM) 및 Qwen3‑VL‑8B‑Instruct (MLLM)
- **벤치마크**: MME, OCR‑VQA, 텍스트 이해·추론 (MMLU, GSM‑8K 등)
- **설정**: W4A8KV16 (가중치 4비트, 활성화 8비트, KV 16비트) 및 W4A4KV16 (극한 4비트)
- **비교 대상**: QuaRot, SpinQuant, BRQ, MR‑GPTQ, FlatQuant 등 기존 PTQ 기법
- **주요 성과**:
- W4A4KV16에서 기존 최첨단 PTQ 대비 평균 5.2~9.8%p 정확도 향상.
- 멀티모달 MME에서 96.43% FP 성능 회복, 텍스트 추론에서도 94~98% 수준 유지.
- 파라미터 오버헤드 0.12% 수준(실제 모델 파라미터 대비)으로 저장·전송 비용 최소.
- 시각화(그림 2)에서 Hadamard 변환 후 나타나는 이중 피크가 어핀 변환 후 거의 사라짐을 확인.
**한계 및 향후 연구**
- 현재 GPK는 블록 크기가 작을 때(32) 파라미터 절감 효과가 크지만, 더 큰 블록이나 비정형 하드웨어에서는 추가 최적화가 필요할 수 있다.
- 클리핑 파라미터 학습이 캘리브레이션 샘플 수에 민감하므로, 샘플 효율성을 높이는 메타‑학습 기법이 향후 과제로 남는다.
- MXFP8(E4M3) 등 더 높은 비트 포맷에 대한 적용 가능성은 초기 실험에서 긍정적이지만, 정량적 평가가 추가되어야 한다.
**결론**
BATQuant은 MXFP4와 같은 초저비트 부동소수점 양자화의 핵심 장애물인 아웃라이어 전파와 이중 피크 현상을 블록‑와이즈 어핀 변환과 효율적인 크로네커 분해, 동적 클리핑을 통해 근본적으로 해결한다. 실험 결과는 멀티모달·대규모 언어 모델 모두에서 기존 PTQ 방법을 크게 앞서며, 실제 배포 환경에서 메모리·연산 효율을 유지하면서도 높은 정확도를 보장한다. 이 접근법은 향후 다양한 MXFP 변형 및 하드웨어 가속기 설계에 중요한 설계 원칙을 제공한다.
**
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기