제로샷 비디오 이상 탐지를 위한 MLLM 기반 LAVIDA
LAVIDA는 실제 이상 데이터 없이도 학습 가능한 제로샷 비디오 이상 탐지 프레임워크이다. 외부 세그멘테이션 데이터에서 추출한 가짜 이상을 활용하는 Anomaly Exposure Sampler와 멀티모달 대형 언어 모델(MLLM)을 결합해 상황에 구애받지 않는 의미 이해를 제공한다. 역어텐션 기반 토큰 압축으로 배경 잡음을 줄이고 연산 효율을 높이며, 프레임‑레벨과 픽셀‑레벨 양쪽에서 최첨단 성능을 달성한다.
저자: Zunkai Dai, Ke Li, Jiajia Liu
본 논문은 비디오 이상 탐지(VAD) 분야에서 ‘실제 이상 데이터 없이도’ 학습이 가능한 제로샷 프레임워크 LAVIDA를 제안한다. 기존 VAD 연구는 제한된 시나리오와 이상 종류에 의존해 일반화 능력이 떨어지는 문제가 있었으며, 특히 상황에 따라 의미가 달라지는 이상을 정확히 파악하기 어려웠다. 이를 해결하기 위해 LAVIDA는 세 가지 핵심 구성요소를 설계한다. 첫 번째는 Anomaly Exposure Sampler이다. 이 모듈은 공개된 시맨틱 세그멘테이션 데이터셋(예: COCO, ADE20K)에서 객체 마스크와 해당 객체에 대한 텍스트 설명을 추출하고, 무작위로 선택된 다른 카테고리를 섞어 ‘가짜 이상’ 라벨을 만든다. 각 샘플은 일정 확률(p)로 이상으로 지정되며, 이상 샘플은 진짜 카테고리와 무관한 카테고리를 동시에 포함한다. 이렇게 함으로써 모델은 다양한 상황에서 진짜 이상과 배경을 구분하도록 학습한다. 두 번째는 멀티모달 대형 언어 모델(MLLM) 기반 의미 추출이다. LAVIDA는 최신 MLLM(LISA 기반)을 활용해 비디오 클립과 텍스트 프롬프트를 동시에 인코딩한다. 특별히 토큰을 도입해 시각 토큰을 텍스트 토큰과 연결하고, 이를 통합된 의미 공간에 매핑한다. 결과적으로 ‘폭력’, ‘부상’, ‘폭발’ 등 복합적인 상황 의미를 이해하고, 상황에 맞는 이상 유형을 자동으로 파악한다. 세 번째는 역어텐션 기반 토큰 압축이다. 비디오 프레임의 시각 토큰은 대부분 배경으로 구성되어 있어 연산 효율을 저해한다. 논문은 토큰 밀도(ρ)를 K‑NN 기반으로 계산해 고밀도 배경 토큰을 식별하고, 각 토큰을 가장 가까운 배경 토큰에 할당한다. 이후 역어텐션을 적용해 배경 토큰에 대해 가장 차별화된 특징을 강조함으로써, L r개의 압축된 토큰만 남긴다. 이 과정은 배경 잡음을 크게 감소시키면서도 이상 객체의 미세한 시공간 패턴을 보존한다. 압축된 토큰은 다중 스케일 시맨틱 프로젝터에 입력돼, 학습 가능한 쿼리 벡터와 결합해 마스크 디코더의 잠재 공간으로 투사된다. 최종적으로 프레임‑레벨 이상 점수와 픽셀‑레벨 이상 마스크를 동시에 출력한다. LAVIDA는 네 개의 베이스라인 VAD 데이터셋(UBnormal, ShanghaiTech, UCF‑Crime, XD‑Violence)에서 제로샷 설정임에도 불구하고, 프레임‑레벨 AUROC 76.45%~85.28%와 픽셀‑레벨 AUROC 87.68%를 달성한다. 특히 UCF‑Crime에서 무지도 학습 방법을 앞서며, XD‑Violence에서는 약지도 방법을 능가한다. 코드와 모델은 GitHub(https://github.com/VitaminCreed/LAVIDA)에서 공개되어 재현 가능성을 높였다. 종합적으로 LAVIDA는 (1) 실제 VAD 데이터 없이도 학습 가능한 파이프라인, (2) MLLM을 통한 깊은 의미 이해, (3) 역어텐션 기반 토큰 압축을 통한 연산 효율성, (4) 프레임·픽셀 양쪽에서 최첨단 성능을 동시에 달성한다는 점에서 VAD 연구에 새로운 패러다임을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기