적응형 토큰 선택으로 긴 비디오 이해 효율 극대화

**배경 및 문제 정의** 멀티모달 대형 언어 모델(MLLM)은 텍스트와 시각 정보를 동시에 처리해 짧은 비디오 클립에 대해 뛰어난 질문‑응답 및 추론 능력을 보여준다. 그러나 비디오 길이가 수십 분·수시간에 달하면 프레임 수가 급증하고, 각 프레임이 다수의 시각 토큰을 생성한다. 이는 모델의 컨텍스트 길이 제한과 GPU 메모리 한계에 직면하게 만든다. 기존 연구는 (1) 프레임 수준에서 텍스트‑이미지 매칭 점수를 이용해 중요한 프레임을 미리 선택하거나, (2) 교차‑모달 어텐션을 활용해 토큰 수준에서 중요도를 평가해 압축한다. 하지만 두 접근 모두 **전역적인 비교 기준**이 없으며, **불필요한 프레임을 계속 처리**하는 비효율성이 존재한다. **AdaptToken 개념** AdaptToken은 MLLM 자체의 ‘불확실성’—구체적으로는 모델이 생성한 토큰 분포의 엔트로피—를 활용해 전역적인 제어 신호를 만든다. 비디오를 일정 크기의 프레임 그룹(예: 64프레임)으로 나눈 뒤, 각 그룹을 MLLM에 입력해 (a) 응답 엔트로피를 계산해 그룹 관련성 점수 C_g 를 얻고, (b) 같은 전방향 패스에서 교차‑모달 어텐션을 추출해 토큰 중요도 R_g 를 산출한다. **그룹 관련성 측정** 응답 엔트로피 e_i = -∑_j P_i(j) log P_i(j) 로 정의하고, 가장 낮은 10% 토큰의 평균 엔트로피를 부정(−e)하여 ‘확신도’ c_i 로 만든다. 그룹 C_g 는 해당 그룹에서 생성된 토큰 중 하위 10%의 평균 c_i 로 정의한다. 실험적으로, C_g 가 낮을수록(즉, 엔트로피가 낮을수록) 정답률이 높아지는 것이 확인되었다. 이는 모델이 해당 그룹에서 프롬프트와 관련된 정보를 충분히 포착했음을 의미한다. **토큰 중요도 추출** 선택된 레이어의 시각 키 k_v 와 텍스트 쿼리 q_t 사이의 어텐션 가중치 Attn_h(q_t, k_v)를 이용해 토큰 스코어 r_v = max_t Σ_h Attn_h(q_t, k_v) 로 계산한다. 이렇게 얻은 R_g 는 그룹 내 토큰의 상대적 중요도를 나타낸다. **전역 토큰 예산 할당** 전체 토큰 예산 B 를 사전에 정하고, 각 그룹에 할당할 예산 B_g 를 B_g = B × Softmax(C_1,…,C_G)/τ 로 결정한다. 여기서 τ=2 로 고정하였다. 높은 C_g (낮은 엔트로피) 를 가진 그룹은 더 큰 B_g 를 받아 더 많은 토큰을 보존한다. 이후 각 그룹에서 R_g 상위 B_g 개 토큰을 선택한다. 선택된 토큰은 원본 위치 임베딩을 유지해 시간 정보를 보존한다. **위치‑인식 전역 토큰 제거** 선택된 토큰들 사이의 중복을 줄이기 위해 (1) 토큰 특징 간 코사인 유사도, (2) 프레임 인덱스 기반 시간적 유사도를 결합해 유사도가 높은 토큰을 제거한다. 이는 토큰 다양성 및 시간적 커버리지를 향상시켜, 동일한 장면을 반복적으로 처리하는 비용을 감소시킨다. **조기 종료 (AdaptToken‑Lite)** 그룹을 순차적으로 처리하면서 C_g 가 사전에 정의한 임계값 이하(높은 확신)로 떨어지면 남은 그룹을 전혀 처리하지 않는다. 이는 ‘충분히 증거를 확보한’ 상황에서 불필요한 연산을 차단한다. 실험 결과, 평균 추론 시간이 약 50% 감소하면서도 정확도 저하가 미미했다. **실험 설정 및 결과** - **벤치마크**: VideoMME, LongVideoBench, LVBench, MLVU (각기 다른 도메인·길이의 비디오). - **베이스 모델**: Qwen2.5‑VL 7B/14B, LLaVA‑1.5‑13B, MiniGPT‑4 7B, GPT‑4V 등 7가지, 파라미터 7B‑72B. - **비교 방법**: 기존 프레임 선택 (CLIP‑Score, Text‑Score), 토큰 압축 (ViT‑based, Cross‑modal attention), 무선 선택 (전체 프레임). 주요 결과: - 평균 정확도 향상 +6.7%p (Qwen2.5‑VL 7B 기준). - 10K 프레임(≈1시간)까지 토큰 예산을 늘려도 성능이 지속적으로 상승, 기존 방법은 포화. - AdaptToken‑Lite는 동일 토큰 예산에서 추론 시간 48% 감소, 정확도 손실 <0.3%p. - 토큰 다양성 제거 단계가 없을 경우, 동일 예산에서도 정확도가 평균 1.2%p 낮아짐. **한계 및 향후 연구** - 엔트로피 기반 확신도는 현재 ‘단일 패스’ 응답에만 의존한다. 다중 라운드 질문‑답변 혹은 체인‑오브‑생각(Chain‑of‑Thought)과 결합하면 더 정교한 불확실성 추정이 가능할 것으로 보인다. - 현재는 고정된 그룹 크기와 스트라이드 방식을 사용했지만, 동적 그룹화(예: 씬 전환 감지)와 결합하면 더욱 효율적인 예산 배분이 기대된다. - 실시간 스트리밍 비디오에 적용하려면 그룹별 엔트로피를 빠르게 업데이트하는 온라인 알고리즘이 필요하다. **결론** AdaptToken은 MLLM의 자체 응답 엔트로피를 전역 제어 신호로 활용해, 긴 비디오에서 중요한 토큰을 효율적으로 선택하고, 필요 시 조기 종료함으로써 메모리·연산 비용을 크게 절감한다. 다양한 모델·스케일·데이터셋에 걸친 실험에서 일관된 성능 향상을 입증했으며, 향후 멀티‑스텝 추론, 동적 씬 구분, 실시간 스트리밍 등으로 확장될 가능성이 크다.

적응형 토큰 선택으로 긴 비디오 이해 효율 극대화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기