비디오줌머: 다중모달 언어 모델의 동적 시각적 주의력 제어

읽는 시간: 3 분
...

📝 원문 정보

  • Title: VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning
  • ArXiv ID: 2512.22315
  • 발행일: 2025-12-26
  • 저자: Yang Ding, Yizhen Zhang, Xin Lai, Ruihang Chu, Yujiu Yang

📝 초록 (Abstract)

다중모달 대형 언어 모델(MLLMs)은 비전-언어 작업에서 놀라운 진보를 이뤘지만, 제한된 컨텍스트 윈도우 때문에 장기 동영상 이해에 한계가 있다. 따라서 현재의 접근 방법들은 균일한 프레임 샘플링이나 정적 사전 선택에 의존하고 있어 중요한 증거를 놓칠 수 있으며 초기 선택 오류를 수정할 수 없다. 이러한 제약을 극복하기 위해, 우리는 MLLMs가 추론 과정에서 시각적 주의력을 동적으로 조절할 수 있는 새로운 에이전트 프레임워크인 비디오줌머를 제안한다. 저속 프레임 레이트 개요부터 시작하여, 비디오줌머는 시간 확대 도구를 사용해 자동으로 선택한 순간에 고속 프레임 레이트 클립을 얻어 점진적으로 세밀한 증거를 다중 회차 상호작용 방식으로 수집한다. 따라서 우리는 두 단계의 학습 전략을 채택한다: 정제된 예시와 반성 경로 데이터셋에 대한 초기 감독 학습 단계, 그리고 에이전트 정책을 더 세밀하게 조정하기 위한 강화학습 단계. 광범위한 실험 결과 7B 모델은 다양한 복잡한 추론 패턴을 제공하며, 장기 동영상 이해와 추론 벤치마크에서 우수한 성능을 보여준다. 이러한 능력 덕분에 기존 오픈소스 모델과 심지어 일부 전roprietary 시스템보다 뛰어난 성능을 발휘하며, 제한된 프레임 예산에서도 효율성을 크게 향상시킨다.

💡 논문 핵심 해설 (Deep Analysis)

비디오줌머는 MLLMs의 한계를 극복하기 위한 혁신적인 접근법이다. 기존 모델들이 고정된 프레임 샘플링이나 정적 사전 선택에 의존함으로써 중요한 정보를 놓치거나 초기 오류를 수정할 수 없는 문제점을 해결하고자, 비디오줌머는 MLLMs가 추론 과정에서 시각적 주의력을 동적으로 조절할 수 있는 에이전트 프레임워크를 제안한다. 이 모델은 저속 프레임 레이트로 시작하여 시간 확대 도구를 사용해 고속 프레임 레이트 클립을 자동으로 선택하고 수집함으로써, 점진적으로 세밀한 증거를 다중 회차 상호작용 방식으로 수집한다. 이는 비디오줌머가 동영상의 중요한 부분에 집중할 수 있도록 하며, 이를 통해 모델은 복잡한 추론 패턴을 제공하고 다양한 장기 동영상 이해와 추론 벤치마크에서 우수한 성능을 보여준다. 또한 두 단계 학습 전략을 채택하여 초기 감독 학습과 강화학습을 통해 모델의 정책을 세밀하게 조정한다. 이로 인해 비디오줌머는 기존 오픈소스 모델뿐만 아니라 일부 전roprietary 시스템보다도 뛰어난 성능을 발휘하며, 제한된 프레임 예산에서도 효율성을 크게 향상시킨다.

📄 논문 본문 발췌 (Excerpt)

다중모달 대형 언어 모델(MLLMs)은 비전-언어 작업에서 놀라운 진보를 이뤘지만, 제한된 컨텍스트 윈도우 때문에 장기 동영상 이해에 한계가 있다. 따라서 현재의 접근 방법들은 균일한 프레임 샘플링이나 정적 사전 선택에 의존하고 있어 중요한 증거를 놓칠 수 있으며 초기 선택 오류를 수정할 수 없다. 이러한 제약을 극복하기 위해, 우리는 MLLMs가 추론 과정에서 시각적 주의력을 동적으로 조절할 수 있는 새로운 에이전트 프레임워크인 비디오줌머를 제안한다. 저속 프레임 레이트 개요부터 시작하여, 비디오줌머는 시간 확대 도구를 사용해 자동으로 선택한 순간에 고속 프레임 레이트 클립을 얻어 점진적으로 세밀한 증거를 다중 회차 상호작용 방식으로 수집한다. 따라서 우리는 두 단계의 학습 전략을 채택한다: 정제된 예시와 반성 경로 데이터셋에 대한 초기 감독 학습 단계, 그리고 에이전트 정책을 더 세밀하게 조정하기 위한 강화학습 단계. 광범위한 실험 결과 7B 모델은 다양한 복잡한 추론 패턴을 제공하며, 장기 동영상 이해와 추론 벤치마크에서 우수한 성능을 보여준다. 이러한 능력 덕분에 기존 오픈소스 모델과 심지어 일부 전roprietary 시스템보다 뛰어난 성능을 발휘하며, 제한된 프레임 예산에서도 효율성을 크게 향상시킨다. 코드는 https://github.com/zsgvivo/VideoZoomer에서 확인할 수 있다.

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키