고속 비디오 캡처를 위한 컨볼루션 희소 코딩

본 논문은 고속 비디오를 단일 코딩 이미지로부터 복원하는 문제를 두 단계로 접근한다. 첫 번째 단계에서는 기존의 패치 기반 압축 센싱 방법을 심층 분석한다. Liu et al.이 제안한 시간-공간 샘플링 매트릭스 Φ를 이용해, 각 픽셀을 한 번만 샘플링하고 일정 길이의 ‘버프’를 적용한다. 이렇게 얻어진 이미지 y는 Φ와 원본 비디오 x의 선형 결합으로 표현된다(y = Φx). 복원을 위해서는 x를 과잉 사전 Ψ의 희소 조합으로 나타내는 것이 필요하며, 이는 L1 정규화 라소 문제(min ‖α‖_1 s.t. ‖y – ΦΨα‖_2 ≤ ε)로 풀린다. 저자들은 K‑SVD 기반의 사전 학습과 SPAMS 라이브러리의 라소 솔버를 사용해 실험을 수행한다. 그러나 이 접근법은 (1) 사전이 복원 대상 영상과 통계적으로 유사해야 한다는 제한, (2) 패치가 독립적으로 처리돼 공간적 연관성을 놓친다, (3) 학습·복원에 수시간이 소요되는 비효율성을 가진다. 두 번째 단계에서는 이러한 한계를 극복하기 위해 컨볼루션 희소 코딩(CSC) 프레임워크를 제안한다. CSC는 영상 x를 필터 집합 {d_k}와 희소 특징 맵 {z_k}의 컨볼루션 합으로 모델링한다(x = Σ_k d_k * z_k). 여기서 필터는 고정된 크기의 커널이며, 특징 맵은 영상 전체 크기의 희소 행렬이다. 이 구조는 (a) 파라미터 수 감소, (b) 공간 이동 불변성 제공, (c) 내용에 구애받지 않는 일반 사전 가능이라는 장점을 제공한다. 저자들은 기존 CSC 최적화식에 시간 차분(Δ_t) 희소성을 추가한다. 구체적으로, 목표 함수는 ½‖y – Φ Σ_k d_k * z_k‖_2^2 + β Σ_k ‖z_k‖_1 + γ Σ_k ‖Δ_t z_k‖_1 으로 정의된다. 첫 번째 항은 측정 오차, 두 번째 항은 공간적 희소성, 세 번째 항은 시간적 급변을 억제한다. ADMM 기반 알고리즘을 사용해 d_k와 z_k를 교대로 업데이트하며, 학습 단계에서는 전체 고속 비디오 데이터셋(Photron SA2, 1000 fps, 4 MP)으로부터 필터를 학습한다. 흥미롭게도, 저자들은 과일 이미지 데이터셋과 같이 전혀 다른 도메인의 사전으로도 충분히 좋은 복원을 얻었다는 점을 강조한다. 실험에서는 두 가지 주요 지표인 PSNR과 SSIM을 사용해 비교한다. 동일한 샘플링 비율(15% 이하)에서 CSC 기반 방법은 기존 패치 기반 방법 대비 평균 1.8 dB 높은 PSNR과 0.04 높은 SSIM을 기록한다. 또한, 복원 시간은 평균 30초에서 6초로 약 5배 가속되었다. 시각적으로도 불꽃이 타오르는 장면, 빠르게 움직이는 물체 등 고주파 움직임을 정확히 재현했으며, 잡음 억제 효과도 뚜렷했다. 마지막으로, 저자들은 코드와 데이터셋을 공개하여 재현성을 확보하고, 향후 실시간 고속 비디오 복원 및 모바일 디바이스 적용 가능성을 제시한다.

고속 비디오 캡처를 위한 컨볼루션 희소 코딩

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기