제로샷 비디오 이상 탐지를 위한 MLLM 기반 LAVIDA

본 논문은 비디오 이상 탐지(VAD) 분야에서 ‘실제 이상 데이터 없이도’ 학습이 가능한 제로샷 프레임워크 LAVIDA를 제안한다. 기존 VAD 연구는 제한된 시나리오와 이상 종류에 의존해 일반화 능력이 떨어지는 문제가 있었으며, 특히 상황에 따라 의미가 달라지는 이상을 정확히 파악하기 어려웠다. 이를 해결하기 위해 LAVIDA는 세 가지 핵심 구성요소를 설계한다. 첫 번째는 Anomaly Exposure Sampler이다. 이 모듈은 공개된 시맨틱 세그멘테이션 데이터셋(예: COCO, ADE20K)에서 객체 마스크와 해당 객체에 대한 텍스트 설명을 추출하고, 무작위로 선택된 다른 카테고리를 섞어 ‘가짜 이상’ 라벨을 만든다. 각 샘플은 일정 확률(p)로 이상으로 지정되며, 이상 샘플은 진짜 카테고리와 무관한 카테고리를 동시에 포함한다. 이렇게 함으로써 모델은 다양한 상황에서 진짜 이상과 배경을 구분하도록 학습한다. 두 번째는 멀티모달 대형 언어 모델(MLLM) 기반 의미 추출이다. LAVIDA는 최신 MLLM(LISA 기반)을 활용해 비디오 클립과 텍스트 프롬프트를 동시에 인코딩한다. 특별히 토큰을 도입해 시각 토큰을 텍스트 토큰과 연결하고, 이를 통합된 의미 공간에 매핑한다. 결과적으로 ‘폭력’, ‘부상’, ‘폭발’ 등 복합적인 상황 의미를 이해하고, 상황에 맞는 이상 유형을 자동으로 파악한다. 세 번째는 역어텐션 기반 토큰 압축이다. 비디오 프레임의 시각 토큰은 대부분 배경으로 구성되어 있어 연산 효율을 저해한다. 논문은 토큰 밀도(ρ)를 K‑NN 기반으로 계산해 고밀도 배경 토큰을 식별하고, 각 토큰을 가장 가까운 배경 토큰에 할당한다. 이후 역어텐션을 적용해 배경 토큰에 대해 가장 차별화된 특징을 강조함으로써, L r개의 압축된 토큰만 남긴다. 이 과정은 배경 잡음을 크게 감소시키면서도 이상 객체의 미세한 시공간 패턴을 보존한다. 압축된 토큰은 다중 스케일 시맨틱 프로젝터에 입력돼, 학습 가능한 쿼리 벡터와 결합해 마스크 디코더의 잠재 공간으로 투사된다. 최종적으로 프레임‑레벨 이상 점수와 픽셀‑레벨 이상 마스크를 동시에 출력한다. LAVIDA는 네 개의 베이스라인 VAD 데이터셋(UBnormal, ShanghaiTech, UCF‑Crime, XD‑Violence)에서 제로샷 설정임에도 불구하고, 프레임‑레벨 AUROC 76.45%~85.28%와 픽셀‑레벨 AUROC 87.68%를 달성한다. 특히 UCF‑Crime에서 무지도 학습 방법을 앞서며, XD‑Violence에서는 약지도 방법을 능가한다. 코드와 모델은 GitHub(https://github.com/VitaminCreed/LAVIDA)에서 공개되어 재현 가능성을 높였다. 종합적으로 LAVIDA는 (1) 실제 VAD 데이터 없이도 학습 가능한 파이프라인, (2) MLLM을 통한 깊은 의미 이해, (3) 역어텐션 기반 토큰 압축을 통한 연산 효율성, (4) 프레임·픽셀 양쪽에서 최첨단 성능을 동시에 달성한다는 점에서 VAD 연구에 새로운 패러다임을 제시한다.

제로샷 비디오 이상 탐지를 위한 MLLM 기반 LAVIDA

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기