시간 렌즈 멀티모달 대형 언어 모델의 비디오 시간 정렬을 위한 고품질 데이터와 효율적 알고리즘 설계
📝 원문 정보
- Title: TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
- ArXiv ID: 2512.14698
- 발행일: 2025-12-16
- 저자: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang
📝 초록 (Abstract)
본 논문은 새로운 방법을 제시하기보다 비디오 시간 정렬(VTG)이라는 핵심 과제에 대한 필수적인 베이스라인을 구축한다. 멀티모달 대형 언어 모델(MLLM)이 다양한 비디오 이해 작업에서 뛰어난 성능을 보이지만, VTG에 최적화하는 구체적인 레시피는 아직 충분히 탐구되지 않았다. 이를 위해 우리는 데이터 품질과 알고리즘 설계 두 축을 중심으로 체계적인 연구를 진행하였다. 기존 VTG 벤치마크의 품질 문제를 드러내고, 엄격한 품질 기준을 적용한 재주석 버전인 TimeLens‑Bench를 구축하였다. 재평가 결과 기존 벤치마크와는 크게 다른 모델 순위가 나타나 기존 평가의 신뢰성이 낮음을 확인하였다. 또한 자동 재주석 파이프라인을 통해 노이즈가 적은 대규모 학습 데이터셋 TimeLens‑100K를 생성하였다. 이러한 데이터 기반 위에 시간 표현을 위한 교차 텍스트 인코딩, 보상 검증이 가능한 강화학습(RLVR) 방식, 그리고 세밀한 학습 레시피 등을 탐색함으로써 의미 있는 설계 원칙을 도출하였다. 최종적으로 제안된 TimeLens 모델군은 오픈소스 모델 중 최고 수준의 VTG 성능을 기록했으며, GPT‑5·Gemini‑2.5‑Flash와 같은 상용 모델을 능가한다. 코드·데이터·모델은 모두 공개한다.💡 논문 핵심 해설 (Deep Analysis)

두 번째 기여는 대규모 고품질 학습 데이터인 TimeLens‑100K를 자동 재주석 파이프라인으로 구축한 점이다. 자동화된 파이프라인은 영상 메타데이터와 텍스트 설명을 교차 검증하고, 시간 구간을 정밀하게 정렬하는 알고리즘을 적용해 인간 주석자의 비용을 크게 절감하면서도 라벨 신뢰도를 유지한다. 이렇게 확보된 데이터는 기존의 잡음이 많은 학습셋에 비해 모델이 시간 정보를 학습하는 효율성을 크게 높인다.
알고리즘 설계 측면에서는 세 가지 혁신이 눈에 띈다. 첫째, ‘시간 표현을 위한 교차 텍스트 인코딩’은 영상의 시간 정보를 자연어 토큰과 교차시켜 인코더에 입력함으로써, 모델이 시간 개념을 언어적 맥락 속에서 직접 학습하도록 만든다. 둘째, ‘Thinking‑Free Reinforcement Learning with Verifiable Rewards(RLVR)’는 전통적인 강화학습에서 발생하는 불안정한 보상 설계 문제를 해결한다. 여기서는 사전 정의된 시간 구간 정밀도와 일치 여부를 기반으로 보상을 자동 검증하고, 정책 업데이트 과정에서 불필요한 탐색(‘thinking’)을 최소화한다. 셋째, RLVR 학습을 위한 ‘세심한 레시피’는 학습률 스케줄링, 배치 구성, 그리고 멀티태스크 손실 가중치 조정을 포함한다. 이러한 설계 원칙을 종합하면, 모델은 적은 연산 비용으로도 높은 시간 정밀도를 달성한다는 점에서 실용적 가치가 크다.
실험 결과는 두 가지 차원에서 의미 있다. 데이터 측면에서는 TimeLens‑Bench를 사용했을 때 기존 모델들의 성능이 크게 변동했으며, 이는 평가 기준의 신뢰성을 재검증한다. 알고리즘 측면에서는 RLVR 기반 TimeLens 모델군이 공개된 오픈소스 MLLM 중 최고 수준의 VTG 성능을 기록했으며, 심지어 GPT‑5·Gemini‑2.5‑Flash와 같은 상용 모델을 능가했다는 점이다. 이는 고품질 데이터와 효율적인 학습 설계가 결합될 때, 상대적으로 작은 규모의 오픈소스 모델도 최첨단 성능을 낼 수 있음을 증명한다.
마지막으로, 논문은 코드·데이터·모델을 모두 공개함으로써 재현 가능성을 확보하고, 향후 VTG 연구의 표준화와 진보를 촉진한다는 점에서 학계·산업계 모두에게 큰 파급 효과를 기대할 수 있다.
📄 논문 본문 발췌 (Excerpt)
📸 추가 이미지 갤러리
