비감독 비디오 객체 분할을 위한 핵심 인스턴스 선택 기법

본 논문은 영상 초반 프레임에서 추출한 객체 제안들을 기반으로 객체성(objectness)과 동적성(dynamics)을 고려한 비디오 살포니시(영상 주목도) 점수를 활용해 K개의 핵심 인스턴스를 선별하고, 이후 프레임에서는 이 핵심 인스턴스만을 추적함으로써 시간·메모리 복잡도를 크게 낮추면서도 DAVIS UVOS 챌린지에서 3위라는 경쟁력 있는 성능을 달성한 방법을 제안한다.

저자: Donghyeon Cho, Sungeun Hong, Sungil Kang

비감독 비디오 객체 분할을 위한 핵심 인스턴스 선택 기법
본 논문은 비감독 비디오 객체 분할(UVOS) 분야에서 객체 수를 효율적으로 관리하면서도 높은 분할 정확도를 유지하는 새로운 프레임워크를 제안한다. 기존 UVOS 접근법은 첫 프레임의 마스크에 의존하거나, 프레임마다 새로운 객체 ID를 무조건 생성하는 방식으로, 연산량·메모리 사용이 급증하고 불필요한 잡음 객체가 포함되는 문제가 있었다. 이를 해결하기 위해 저자들은 “키 인스턴스 선택(Key Instance Selection)”이라는 두 단계 파이프라인을 설계하였다. 1. **프레임‑레벨 후보 생성 및 초기 ID 할당** - 각 프레임에 대해 Mask R‑CNN과 DeepLab을 활용해 객체 제안(바운딩 박스와 마스크)을 추출한다. - 영상 흐름에 의해 발생하는 블러·오클루전 등으로 인한 분할 오류를 보완하기 위해 RGMP 기반 마스크 전파를 보조 후보로 사용한다. - 객체 풀(Object Pool)을 도입해 현재까지 할당된 ID를 관리한다. M번째 프레임까지는 새로운 후보가 기존 ID와 매칭되지 않을 경우 새로운 ID를 생성한다. 2. **ID‑매칭을 위한 복합 점수 체계** - **IoU 점수(S_iou)**: 후보 마스크와 기존 ID 마스크 간 겹침 정도. - **궤적 점수(S_traj)**: 후보 바운딩 박스와 기존 ID의 예측 궤적 간 거리, 정규화 파라미터 α_traj 사용. - **ReID 점수(S_reid)**: 후보와 기존 ID의 ReID 디스크립터 간 유클리드 거리, 양성 디스크립터 집합 중 최소값 사용. - **상대 ReID 점수(S_rel)**: S_reid를 전체 ID 중 최대값으로 정규화. - 위 네 점수를 가중합(w_iou·S_iou + w_traj·S_traj + w_reid·S_reid + w_rel·S_rel)하여 총점 S_total을 계산하고, 임계값 τ_c 를 초과하면 매칭을 확정한다. 매칭이 성공하면 해당 후보의 ReID 디스크립터를 해당 ID의 양성 집합에 추가하고, 궤적 벡터도 업데이트한다. 3. **키 인스턴스 선택** - M프레임까지 누적된 ID들에 대해 두 가지 평가 지표를 계산한다. - **비디오 살포니시 점수(S_sal)**: 영상 전체에서 해당 객체가 차지하는 주목도, Shen et al.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기