키값 캐시 양자화로 장기 비디오 생성 효율화

본 논문은 Self‑Forcing 비디오 생성에서 발생하는 KV‑캐시 메모리 급증 문제를 시스템·품질 관점에서 종합적으로 조사한다. Self‑Forcing은 생성된 프레임을 다시 입력으로 사용해 무한히 롤아웃할 수 있게 해 주지만, 컨텍스트 길이가 늘어날수록 키‑값 캐시가 선형적으로 커져 GPU 메모리와 대역폭에 큰 부담을 준다. 이를 해결하고자 저자들은 Wan2.1 기반 Self‑Forcing 스택에 33가지 양자화·캐시 정책을 적용하고, 두 가지 벤치마크인 MovieGen(10초 단일 샷)과 StoryEval(긴 서사형 롤아웃)에서 610개의 프롬프트와 63개의 메서드 요약을 수집했다. **방법론** 33가지 방법은 크게 여섯 그룹으로 나뉜다. 1. **RTN**: 균일 2‑bit·4‑bit 양자화, 키‑값 비대칭(K2_V4) 및 최근‑윈도우·리프레시 변형. 2. **KIVI**: 채널‑별 비대칭 양자화와 토큰‑별 값 양자화. 3. **QUAROT**: 하다마드 회전 후 RTN 방식 적용, 아웃라이어 억제. 4. **PRQ·QAQ**: 두 단계 잔차 코딩·아웃라이어 별도 저장, 고품질 목표. 5. **Temporal Heuristics (AGE_TIER·TPTQ)**: 오래된 토큰을 저정밀, 최신 토큰을 고정밀로 유지하는 가중 압축. 6. **FlowCache‑Inspired**: 청크‑단위 중요도 평가·하드·소프트 프루닝, 어댑티브 할당, 네이티브 재사용. 7. **Spatial Mixed**: 전경·배경 마스크 기반 전경에 고정밀, 배경에 저정밀 적용. 각 방법은 KV‑캐시를 BF16 기준에서 압축한 뒤, 캐시 재구성·리프레시 단계에서 발생하는 BF16 버퍼를 어떻게 처리하는지에 따라 실제 피크 VRAM이 달라진다. 실험 파이프라인은 동일한 입력 프롬프트에 대해 BF16 레퍼런스와 압축 버전을 모두 생성하고, 런타임, 피크 VRAM, 압축 비율, VBench 이미지 품질, BF16‑기준 SSIM·LPIPS·PSNR, 그리고 StoryEval에서의 드리프트‑last 품질을 측정한다. **주요 결과** - **명목 압축 vs 실제 메모리**: RTN_INT4는 3.2배 명목 압축에도 피크 VRAM이 19.98 GB로 거의 변함이 없으며, SSIM도 0.688 이하로 떨어진다. 이는 양자화 후 캐시를 BF16 형태로 복원하거나, attention 연산 중 BF16 버퍼가 남아 메모리 절감 효과가 사라지는 것이 원인이다. - **고품질 압축**: PRQ_INT4는 SSIM 0.824, LPIPS 0.082로 BF16에 근접하지만, 런타임 160 s, 피크 VRAM 20.69 GB로 비현실적이다. QUAROT_KV_INT4도 유사한 품질을 보이지만, 236 s 이상의 런타임과 19.98 GB VRAM을 요구한다. - **FlowCache‑Soft‑Prune_INT4**: 청크를 중요도 기반으로 소프트 프루닝하고, 프루닝된 청크는 저비트 요약으로 대체한다. 압축 비율 5.42~5.49배, 피크 VRAM 11.71~11.76 GB, 런타임 75 s, VBench 0.739(≈BF16) 및 StoryEval drift‑last 0.679를 달성한다. 품질 면에서는 PRQ·QUAROT보다 다소 낮지만, 실용적인 메모리·시간 트레이드오프를 제공한다. - **Temporal Heuristics**: Recent2와 Refresh 변형은 오래된 토큰을 고정밀로 유지하거나 주기적 재양자화로 메모리를 약간 절감하지만, BF16 버퍼가 남아 피크 VRAM 감소 효과가 제한적이다. - **Spatial Mixed**: 전경·배경 마스크 기반 혼합은 전경에 고정밀을 적용했음에도 SSIM 0.399, VBench 0.400 수준으로 급락, 비디오 생성에서는 전경·배경 구분이 불안정해 실용성이 낮다. **시사점** 1. **압축 비율만으로는 충분치 않다**: KV‑캐시 양자화 후에도 BF16 버퍼가 남아 있으면 메모리 절감 효과가 사라진다. 따라서 양자화와 동시에 캐시 재구성·리프레시 파이프라인을 최적화해야 한다. 2. **품질·시스템 트레이드오프**: 고품질을 목표로 하면 메모리·시간 비용이 급증한다. 실배포에서는 품질이 약간 낮더라도 메모리·시간 효율이 높은 FlowCache‑Soft‑Prune가 최선이다. 3. **정책 설계의 중요성**: 청크‑단위 중요도 평가와 소프트 프루닝은 장기 롤아웃에서 구조적 드리프트를 최소화하면서 메모리를 크게 절감한다. 이는 기존 PagedAttention·FlowCache 아이디어를 비디오 특화에 적용한 성공 사례다. 4. **미래 연구 방향**: BF16 버퍼를 완전히 제거하거나, 양자화‑재구성 과정을 통합 최적화하는 하드웨어‑친화적 설계가 필요하다. 또한, 다른 장기 비디오 생성 프레임워크(CausVid, HiAR 등)와의 교차 검증을 통해 정책의 일반성을 검증할 여지가 있다. **결론** 본 연구는 KV‑캐시 압축이 단순 비트폭 감소를 넘어, 캐시 관리·재구성 전략과 결합될 때 실질적인 메모리·시간 절감 효과를 발휘한다는 것을 입증한다. 현재 스택에서는 FlowCache‑Soft‑Prune_INT4가 가장 균형 잡힌 선택이며, 고품질을 유지하려면 PRQ·QUAROT와 같은 고비용 방법을 선택해야 함을 명확히 제시한다. 향후 연구는 BF16 버퍼를 없애는 시스템‑레벨 최적화와, 다양한 비디오 생성 파이프라인에 대한 일반화 검증을 통해 장기 비디오 생성의 실용성을 더욱 높일 수 있을 것이다.

키값 캐시 양자화로 장기 비디오 생성 효율화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기