비디오아틀라스: 로그 계산으로 긴 영상 탐색

본 논문은 장시간 영상 이해에 있어 기존 비디오‑언어 모델(VLM)이 직면한 두 가지 핵심 문제, 즉 ‘표현 손실’과 ‘긴 컨텍스트 처리’를 근본적으로 해결하는 새로운 프레임워크 VideoAtlas와 이를 활용한 Video‑RLM을 제안한다. 첫 번째 문제는 영상을 균일 샘플링하거나 고정된 컴포지트 그리드로 압축할 때 발생하는 정보 손실이다. 기존 방법은 프레임 수를 제한된 토큰 예산에 맞추기 위해 해상도와 시간 커버리지를 트레이드오프해야 하며, 이는 짧은 사건이나 세밀한 시각적 디테일을 놓치게 만든다. VideoAtlas는 영상을 K×K(기본 K=8) 셀로 구성된 계층형 그리드로 변환한다. 루트 그리드 S₀는 전체 영상의 대표 프레임을 셀에 배치해 한눈에 전체 흐름을 파악하게 하고, EXPAND 액션을 통해 선택된 셀을 재귀적으로 하위 그리드 S_{d+1} 으로 확장한다. 깊이 d 에 따라 시간 해상도는 Δt₍d₎ = T / K²^(d+1) 로 기하급수적으로 증가한다. 따라서 영상 길이 T 가 커져도 필요한 탐색 깊이는 Dₘₐₓ = ⌈log_{K²}(T·fps)⌉ 에 불과해, 10시간(≈ 900 초) 영상에서도 서브초 수준의 정밀도를 6~7단계의 탐색만으로 달성한다. 이 과정은 전혀 오프라인 전처리 없이 실시간으로 그리드를 생성하므로, “전처리‑프리”와 “손실‑없음”을 동시에 만족한다. 두 번째 문제는 긴 영상에 대한 컨텍스트를 어떻게 효율적으로 활용하느냐이다. 최근 Recursive Language Model(RLM)은 텍스트 컨텍스트를 재귀적 서브에이전트 호출을 통해 무한히 확장할 수 있음을 보여주었지만, 시각적 환경이 없으면 영상에 직접 적용하기 어렵다. VideoAtlas는 이러한 시각적 환경을 명시적으로 정의함으로써 RLM을 영상에 그대로 적용한다. 구체적으로, Video‑RLM은 마스터‑워커 구조를 채택한다. 마스터는 현재 루트 그리드와 양성 메모리 M⁺(시각적 스크래치패드)를 관찰해 불확실성이 높은 셀을 워커에게 할당한다. 워커는 할당된 셀에 대해 EXPAND, ZOOM, INVESTIGATE, ADD‑TO‑SCRATCHPAD 등의 액션을 수행해 하위 그리드를 탐색하고, 발견한 프레임·자막·시간·신뢰도·텍스트 설명을 M⁺에 저장한다. 동시에 탐색이 무의미했던 구간은 M⁻ (죽은 구역)으로 표시해 재탐색을 방지한다. 모든 워커가 반환하면 마스터는 불확실성 분석 (예: 베이지안 신뢰도, 정보 이득) 을 수행해 답변이 충분히 확보됐는지 판단한다. 충분하지 않다면 새로운 라운드에서 추가 탐색을 진행한다. 핵심 기여는 다음과 같다. 1. **VideoAtlas 환경**: 영상 → 계층형 그리드 → 시각적 스크래치패드 로의 일관된 표현을 제공한다. 이 구조는 손실‑없음, 캡션‑프리, 무한 컨텍스트, 병렬 탐색을 동시에 만족한다. 2. **Video‑RLM**: 마스터‑워커 기반의 병렬 RLM을 설계해, 워커가 독립적으로 서브그리드를 탐색하고 결과를 M⁺에 집계한다. 마스터는 전역적인 탐색 전략을 조정한다. 3. **탐색 전략 다양성**: BFS, DFS, 질의‑적응형 정책 등 다양한 탐색 전략을 환경에 그대로 적용할 수 있다. 4. **환경 예산**: 탐색 깊이 d 를 직접 제한함으로써 연산·메모리 비용을 정량적으로 제어한다. 깊이 d 가 증가하면 시간 해상도가 기하급수적으로 향상되지만, 전체 연산량은 로그 스케일로 증가한다. 실험에서는 1시간, 3시간, 10시간 길이의 영상 QA 벤치마크를 사용해 Video‑RLM을 평가했다. 주요 결과는 다음과 같다. (1) **로그 연산 성장**: Video‑RLM은 토큰 수가 선형‑스케일링 VLM에 비해 최대 9.7× 적게 사용했으며, 연산량은 O(log T) 에 근접했다. (2) **멀티모달 캐시 적중률**: 동일한 그리드와 중첩 서브그리드가 재사용되면서 30‑60 %의 캐시 적중률을 달성, 실제 GPU 연산 시간을 크게 절감했다. (3) **환경 예산 효과**: 깊이 d 를 4에서 6으로 늘리면 정확도는 평균 3 % 상승하지만 연산량은 로그 수준으로만 증가, 즉 비용‑효율적인 정확도 향상이 가능했다. (4) **적응형 연산 할당**: 질문이 세부적인 시간 정보를 요구할 경우 탐색 깊이가 자동으로 증가하고, 대략적인 질문일 경우 얕은 탐색만으로 충분히 답을 도출해 연산을 절감했다. (5) **스케일링 견고성**: 1시간에서 10시간으로 영상 길이를 10배 늘려도 정확도 저하는 2 % 미만에 그쳤으며, 기존 선형‑스케일링 방법은 10시간 영상에서 15 % 이상 정확도가 떨어졌다. 결론적으로, VideoAtlas는 영상 데이터를 손실 없이 구조화하고, 이를 기반으로 RLM을 확장함으로써 긴 영상 이해를 로그 복잡도로 해결한다. 이는 기존 VLM이 겪던 “시간‑해상도 트레이드오프”와 “텍스트 변환에 의한 정보 손실”을 근본적으로 극복하는 새로운 패러다임을 제시한다. 향후 연구에서는 더 높은 K 값을 통한 더 세밀한 그리드, 멀티모달 프롬프트와의 통합, 그리고 실시간 스트리밍 영상에 대한 적용 가능성을 탐색할 예정이다.

비디오아틀라스: 로그 계산으로 긴 영상 탐색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기