TurboAngle: 균일 각도 양자화 기반 KV 캐시 초저손실 압축 기술

TurboAngle는 무작위 부호 대각 회전을 적용한 정규화된 Fast Walsh‑Hadamard Transform(FWHT) 후, 연속 원소 쌍을 단위 원 위의 각도로 변환해 균일하게 분포시키는 방식을 이용한다. 각도만을 균일 양자화하고, 정규화값은 비대칭 8‑bit(키)·4‑bit(값) 로그 스페이스 양자화한다. 레이어별 ‘early‑boost’ 전략으로 초기 혹은 모델 특화 레이어에만 높은 비트수를 할당해 3.28~3.67 bits/ele…

저자: Dipkumar Patel

TurboAngle: 균일 각도 양자화 기반 KV 캐시 초저손실 압축 기술
TurboAngle 논문은 대규모 언어 모델(LLM)의 KV 캐시 메모리 사용량을 크게 줄이면서도 품질 손실을 최소화하는 새로운 압축 프레임워크를 제시한다. 기존 연구들은 KV 캐시를 직접 스칼라·벡터 양자화하거나 채널별 보정, 비대칭 코드북 등을 적용했지만, KV 데이터는 비정규·아웃라이어가 많아 균일 양자화가 어려웠다. 저자들은 먼저 Fast Walsh‑Hadamard Transform(FWHT)를 활용한다. 입력 벡터 x에 무작위 ±1 대각 행렬 D를 곱한 뒤 정규화된 FWHT(H)를 적용하면, 각 차원은 독립적인 부호‑무작위 합으로 고차원에서 가우시안에 수렴한다. 연속된 두 차원을 (y₂i, y₂i+1)으로 묶으면 2차원 구형 가우시안이 되며, 이때 각도 θ는 정확히 Uniform

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기