활동 제안 기반 이미지 비디오 검색

본 논문은 이미지 하나를 입력으로 해당 활동을 포함하는 비디오를 찾아내는 이미지‑비디오 검색, 즉 Activity Image‑to‑Video Retrieval(AIVR) 문제를 다룬다. AIVR은 영상 내에 활동과 무관한 배경 구간이 많이 포함될 수 있어, 전통적인 전체‑프레임 기반 영상 표현으로는 검색 정확도가 크게 저하된다. 이를 해결하기 위해 저자들은 두 가지 핵심 아이디어를 제시한다. 첫째, R‑C3D 모델을 이용해 영상에서 활동 가능성이 높은 시간 구간을 제안(temporal proposals)하고, 각 제안에 대해 3D‑CNN 특징을 추출해 ‘bag of proposals’ 형태로 영상을 표현한다. 둘째, 이러한 bag을 다중 인스턴스 학습(MIL) 관점에서 다루어, 잡음 제안을 억제하고 정제된 제안에 가중치를 부여한다. **1. 제안 기반 영상 표현** R‑C3D는 3D‑CNN 기반의 Temporal Activity Detection 모델로, 영상 전체를 스캔해 활동이 존재할 가능성이 높은 구간을 제안한다. 각 제안은 길이가 다양하지만, 제안마다 고정 차원의 특징 벡터 h_k ∈ ℝ^{d1}를 추출한다. 이렇게 얻은 h_1,…,h_K를 하나의 bag V = {h_1,…,h_K} 로 구성한다. 이 방식은 기존의 전역 특징 추출과 달리, 배경 구간을 자연스럽게 배제하고 활동 중심의 정보를 집중시킨다. 그러나 제안 단계에서도 완전한 잡음 제거가 불가능하므로, bag 안에는 여전히 활동과 무관한 제안이 섞여 있다. **2. Graph Multi‑Instance Learning (GMIL) 모듈** MIL에서는 bag 안에 최소 하나의 ‘양성’ 인스턴스가 존재한다는 가정 하에, 인스턴스별 중요도를 학습한다. 저자들은 Ilse et al.의 self‑attention 기반 MIL을 기본으로 삼아, 각 인스턴스에 대한 가중치 a 를 softmax(tanh(VᵀL₁)L₂) 형태로 계산한다. 여기서 L₁, L₂는 학습 가능한 완전 연결 층이며, tanh는 비선형 활성화이다. 하지만 이 방식은 인스턴스 간 관계를 무시한다. 이를 보완하기 위해 그래프 컨볼루션을 도입한다. 각 bag에 대해 코사인 유사도로 구성된 인접 행렬 S를 만들고, S₀ = S + I_k 로 자기 연결을 추가한다. 정규화 라플라시안 D⁻¹ᐟ² S₀ D⁻¹ᐟ² 를 그래프 컨볼루션 연산으로 사용해 두 차례 적용한다. 최종 가중치는 ˆa = softmax( S̄ tanh(S̄ Vᵀ L₁) L₂ ) 로 얻으며, 유사한 제안들 간에 가중치가 유사하도록 부드럽게 만든다. 이렇게 얻은 ˆa를 이용해 bag‑level 특징 Z(V) = Σ_j ˆa_j ĥ_j 를 계산하고, 이는 분류·적대 손실에 입력된다. **3. 크로스‑모달 공동 임베딩 학습** 이미지와 비디오는 각각 VGG와 R‑C3D로 전처리된 뒤, 3개의 완전 연결 층을 통해 동일 차원 r (예: 1024) 로 매핑된다. 매핑 함수 f_u(·)와 f_v(·)는 파라미터 θ_p 를 공유한다. 공동 임베딩 공간에서 세 가지 손실을 동시에 최적화한다. - **분류 손실 (Classification Loss)**: 이미지와 비디오 모두에 동일한 소프트맥스 클래시파이어를 두어, 각 샘플이 올바른 카테고리 라벨을 예측하도록 한다. 이는 모달리티와 무관한 의미적 구분 능력을 강화한다. - **적대 손실 (Adversarial Loss)**: 모달리티 구분기 D를 두고, f_u와 f_v가 D를 속이도록 학습한다. 즉, 이미지와 비디오 특징이 모달리티 구분기에 의해 구분되지 않도록 하여, 모달리티 간 격차를 최소화한다. - **Geometry‑aware 트리플렛 손실**: 기존 트리플렛 손실은 앵커(이미지)와 양성·음성 비디오 간 거리 차이를 마진 m 만큼 벌리는 방식이다. 여기서는 단순 평균 거리 대신, 이미지 점을 비디오 bag이 형성하는 서브스페이스에 정사영한 뒤의 점‑서브스페이스 거리 d(u, V) = ‖u – e_V u‖₂ 를 사용한다. e_V는 정사영 연산자이며, e_V = V₀ (V₀ᵀ V₀)⁻¹ V₀ᵀ 로 계산된다. 잡음 제안이 정사영을 왜곡할 수 있으므로, GMIL 가중치 상위 b개의 제안만을 사용해 V₀ (truncated bag)를 만든다. 이렇게 하면 구조적 정보를 보존하면서도 잡음에 강인한 거리 측정이 가능해진다. 트리플렛 손실은 L_triplet = Σ_{i,j}

활동 제안 기반 이미지 비디오 검색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기