활동 제안 기반 이미지 비디오 검색

이미지‑비디오 검색에서 영상의 배경 잡음이 성능을 저해하는 문제를 해결하고자, 저자들은 R‑C3D로 생성한 활동 제안들을 ‘bag’ 형태로 표현하고, 이를 다중 인스턴스 학습(MIL)과 그래프 컨볼루션을 결합한 GMIL 모듈에 통합한다. 또한, 제안 가중치를 이용해 상위‑b개의 정제된 제안만을 사용해 점‑서브스페이스 거리 기반의 geometry‑aware triplet loss를 설계함으로써 구조 정보를 보존하면서 잡음에 강인한 공동 임베딩을 …

저자: Ruicong Xu, Li Niu, Jianfu Zhang

활동 제안 기반 이미지 비디오 검색
본 논문은 이미지 하나를 입력으로 해당 활동을 포함하는 비디오를 찾아내는 이미지‑비디오 검색, 즉 Activity Image‑to‑Video Retrieval(AIVR) 문제를 다룬다. AIVR은 영상 내에 활동과 무관한 배경 구간이 많이 포함될 수 있어, 전통적인 전체‑프레임 기반 영상 표현으로는 검색 정확도가 크게 저하된다. 이를 해결하기 위해 저자들은 두 가지 핵심 아이디어를 제시한다. 첫째, R‑C3D 모델을 이용해 영상에서 활동 가능성이 높은 시간 구간을 제안(temporal proposals)하고, 각 제안에 대해 3D‑CNN 특징을 추출해 ‘bag of proposals’ 형태로 영상을 표현한다. 둘째, 이러한 bag을 다중 인스턴스 학습(MIL) 관점에서 다루어, 잡음 제안을 억제하고 정제된 제안에 가중치를 부여한다. **1. 제안 기반 영상 표현** R‑C3D는 3D‑CNN 기반의 Temporal Activity Detection 모델로, 영상 전체를 스캔해 활동이 존재할 가능성이 높은 구간을 제안한다. 각 제안은 길이가 다양하지만, 제안마다 고정 차원의 특징 벡터 h_k ∈ ℝ^{d1}를 추출한다. 이렇게 얻은 h_1,…,h_K를 하나의 bag V = {h_1,…,h_K} 로 구성한다. 이 방식은 기존의 전역 특징 추출과 달리, 배경 구간을 자연스럽게 배제하고 활동 중심의 정보를 집중시킨다. 그러나 제안 단계에서도 완전한 잡음 제거가 불가능하므로, bag 안에는 여전히 활동과 무관한 제안이 섞여 있다. **2. Graph Multi‑Instance Learning (GMIL) 모듈** MIL에서는 bag 안에 최소 하나의 ‘양성’ 인스턴스가 존재한다는 가정 하에, 인스턴스별 중요도를 학습한다. 저자들은 Ilse et al.의 self‑attention 기반 MIL을 기본으로 삼아, 각 인스턴스에 대한 가중치 a 를 softmax(tanh(VᵀL₁)L₂) 형태로 계산한다. 여기서 L₁, L₂는 학습 가능한 완전 연결 층이며, tanh는 비선형 활성화이다. 하지만 이 방식은 인스턴스 간 관계를 무시한다. 이를 보완하기 위해 그래프 컨볼루션을 도입한다. 각 bag에 대해 코사인 유사도로 구성된 인접 행렬 S를 만들고, S₀ = S + I_k 로 자기 연결을 추가한다. 정규화 라플라시안 D⁻¹ᐟ² S₀ D⁻¹ᐟ² 를 그래프 컨볼루션 연산으로 사용해 두 차례 적용한다. 최종 가중치는 ˆa = softmax( S̄ tanh(S̄ Vᵀ L₁) L₂ ) 로 얻으며, 유사한 제안들 간에 가중치가 유사하도록 부드럽게 만든다. 이렇게 얻은 ˆa를 이용해 bag‑level 특징 Z(V) = Σ_j ˆa_j ĥ_j 를 계산하고, 이는 분류·적대 손실에 입력된다. **3. 크로스‑모달 공동 임베딩 학습** 이미지와 비디오는 각각 VGG와 R‑C3D로 전처리된 뒤, 3개의 완전 연결 층을 통해 동일 차원 r (예: 1024) 로 매핑된다. 매핑 함수 f_u(·)와 f_v(·)는 파라미터 θ_p 를 공유한다. 공동 임베딩 공간에서 세 가지 손실을 동시에 최적화한다. - **분류 손실 (Classification Loss)**: 이미지와 비디오 모두에 동일한 소프트맥스 클래시파이어를 두어, 각 샘플이 올바른 카테고리 라벨을 예측하도록 한다. 이는 모달리티와 무관한 의미적 구분 능력을 강화한다. - **적대 손실 (Adversarial Loss)**: 모달리티 구분기 D를 두고, f_u와 f_v가 D를 속이도록 학습한다. 즉, 이미지와 비디오 특징이 모달리티 구분기에 의해 구분되지 않도록 하여, 모달리티 간 격차를 최소화한다. - **Geometry‑aware 트리플렛 손실**: 기존 트리플렛 손실은 앵커(이미지)와 양성·음성 비디오 간 거리 차이를 마진 m 만큼 벌리는 방식이다. 여기서는 단순 평균 거리 대신, 이미지 점을 비디오 bag이 형성하는 서브스페이스에 정사영한 뒤의 점‑서브스페이스 거리 d(u, V) = ‖u – e_V u‖₂ 를 사용한다. e_V는 정사영 연산자이며, e_V = V₀ (V₀ᵀ V₀)⁻¹ V₀ᵀ 로 계산된다. 잡음 제안이 정사영을 왜곡할 수 있으므로, GMIL 가중치 상위 b개의 제안만을 사용해 V₀ (truncated bag)를 만든다. 이렇게 하면 구조적 정보를 보존하면서도 잡음에 강인한 거리 측정이 가능해진다. 트리플렛 손실은 L_triplet = Σ_{i,j}

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기