모든 프레임이 똑같이 중요한가? – 마우스 기반 시간적 비디오 살리엔시 측정
본 논문은 비디오의 각 프레임이 인간의 주의를 끄는 정도, 즉 시간적 살리엔시를 측정하기 위한 새로운 마우스‑컨틴전트 인터페이스를 제안한다. 모든 프레임을 블러 처리하고, 사용자가 커서를 클릭·드래그하면 해당 영역만 디블러링하도록 하여 “관심 있는 순간”을 표시하게 한다. 30명의 실험자를 대상으로 8개의 10초 HD 비디오를 5회 반복 재생한 결과, 프레임별 클릭 횟수가 높은 프레임이 의미론적 전환점과 일치함을 확인했으며, 관찰자 간 상관계수…
저자: Oleksii Sidorov, Marius Pedersen, Nam Wook Kim
본 논문은 “시간적 비디오 살리엔시”(temporal video saliency)라는 새로운 개념을 정의하고, 이를 측정하기 위한 실험적 인터페이스를 설계·검증한다. 기존 연구는 주로 정적인 이미지나 영상의 공간적 살리엔시(시선이 어디에 집중되는가)에 초점을 맞추어 왔으며, 프레임 자체가 언제 중요한지를 정량화하는 방법은 부족했다. 저자들은 이러한 격차를 메우기 위해 마우스 커서를 이용한 디블러링 인터페이스를 고안하였다. 구체적으로, 모든 프레임을 가우시안 블러로 흐리게 만든 뒤, 사용자가 마우스 클릭·드래그를 하면 커서 중심의 원형 영역만 디블러링되어 보이게 한다. 이때 디블러링 가능한 프레임 수와 연속 디블러링 시간(예: 전체 4 초, 연속 1 초) 를 제한함으로써 사용자는 제한된 클릭 자원을 가장 “흥미로운” 순간에 할당하게 된다.
실험은 30명의 대학생·교직원을 대상으로 8개의 10초 길이 HD 영상(스포츠, 자연, 영화, 감시 등)을 5회 반복 재생하도록 구성하였다. 영상은 25 fps, 1280×720 해상도이며, 디블러링 윈도우 반경은 200 px(시각각 6.2°), 블러 커널 σ=15으로 설정했다. 제한 파라미터는 사전 테스트를 통해 직관적으로 학습되도록 설계했으며, 사용자는 제한을 인식하지 못한 채 자연스럽게 클릭 패턴을 형성한다.
수집된 데이터는 프레임별 클릭 횟수로 변환되어 시간적 살리엔시 점수로 사용된다. 클릭 횟수를 합산하는 방식은 세 가지로 나뉜다. 첫 번째는 5회 반복 전체를 합산한 C₁‑5, 두 번째는 첫 번째 반복만을 사용한 C₁, 세 번째는 각 반복에 가중치를 부여한 가중합 C(W)₁‑5이다. 모든 점수는 해당 프레임이 받을 수 있는 최대 클릭 수(제한된 디블러링 프레임 수)로 정규화하였다.
분석 결과, 대부분의 살리엔시 피크는 영상 내 의미론적 전환점(예: 골 득점, 폭발, 물고기 등장 등)과 일치했으며, 변화가 거의 없는 “바람에 흔들리는 잎사귀” 영상은 평탄한 곡선을 보였다. 특히, 첫 번째 반복(C₁)만을 사용해도 전체 5회 반복(C₁‑5)과 유사한 패턴이 나타났으며, 가중합(C(W)₁‑5) 역시 큰 차이를 보이지 않았다. 이는 사용자가 첫 번째 시청에서 주요 이벤트를 충분히 포착한다는 것을 의미한다.
관찰자 간 일관성은 무작위로 15명씩 두 그룹으로 나누어 Pearson 상관계수와 Kolmogorov‑Smirnov 검정을 수행해 평가하였다. 평균 PCC는 0.66~0.86 사이였으며, 반복 횟수를 늘릴수록 상관도가 상승하였다(최대 0.86). 이는 제한된 클릭 자원을 여러 번에 걸쳐 수집함으로써 통계적 신뢰도가 향상된 결과이다.
공간적 살리엔시 측면에서는 클릭 위치를 가우시안 블러(σ=33 px)로 확산시켜 시선 고정점을 근사하였다. 이와 eye‑tracker 기반 고정점 맵을 AUC와 NSS 지표로 비교했을 때, 영상마다 차이는 있었지만 전반적으로 유사한 패턴을 보였다. 특히 “수중 세계”와 “다이버” 영상에서는 NSS가 0.7 이상으로 눈 추적과 비교적 높은 일치도를 나타냈다.
논문의 주요 기여는 다음과 같다. 첫째, 시간적 살리엔시를 측정할 수 있는 최초의 마우스 기반 실험 프로토콜을 제시하였다. 둘째, 클릭 제한을 통해 프레임별 중요도를 정량화하고, 관찰자 간 높은 일관성을 입증하였다. 셋째, 별도 하드웨어 없이도 공간적 시선 정보를 동시에 획득함을 보였다. 한계점으로는 클릭 제한 파라미터가 영상 특성에 따라 최적화되지 않았으며, 일부 영상에서 공간적 살리엔시 성능이 낮은 점을 들 수 있다. 향후 연구에서는 파라미터 자동 튜닝, 다양한 장르·길이의 영상 확대, 그리고 수집된 데이터로 딥러닝 기반 시간적 살리엔시 예측 모델을 학습시키는 방향이 제시된다.
결론적으로, 제안된 인터페이스는 저비용·원격 환경에서 대규모 시간적 살리엔시 데이터셋을 구축할 수 있는 실용적인 도구이며, 향후 비디오 압축, 요약, 인덱싱 등 다양한 멀티미디어 응용 분야에 활용될 잠재력을 가진다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기