ASAP 시선 이동 인식 프루닝으로 효율적인 LVLM 추론
본 논문은 대규모 비전‑언어 모델(LVLM)의 시각 토큰이 초고해상도 이미지에서 급증하면서 발생하는 O(N²) 연산 부담을 완화하기 위해, 주의 이동(attention shift) 현상을 보정하고 토큰 중복을 제거하는 훈련‑무료 프루닝 기법 ASAP을 제안한다. 동적 양방향 소프트 마스크를 이용해 RoPE에 의해 발생하는 위치 편향을 완화하고, 가중치 기반 유사도 측정을 통해 의미적으로 중복된 토큰을 부드럽게 병합한다. KV‑Cache와 다중 …
저자: Surendra Pathak, Bo Han
본 논문은 대규모 비전‑언어 모델(LVLM)이 고해상도 이미지를 처리할 때 발생하는 시각 토큰 수의 급증과 그에 따른 O(N²) 연산 비용을 효율적으로 감소시키는 새로운 프루닝 기법인 ASAP(Attention‑Shift‑Aware Pruning)을 제안한다. 기존의 토큰 감소 방법은 주로 ViT‑attention이나
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기