학습 기반 비디오 압축을 위한 픽셀모션CNN 설계와 구현

본 논문은 기존 비디오 코덱에서 핵심 역할을 하는 모션 보상 기능을 신경망에 통합하기 어려운 문제를 해결하고자, 픽셀모션CNN(PMCNN)이라는 새로운 예측 모델을 제안한다. PMCNN은 이전 재구성 프레임과 현재 블록의 상·좌측 이웃 블록을 조건으로 하여 블록 단위의 시공간 예측을 수행하고, 이를 기반으로 잔차를 반복적으로 분석·합성하여 이산화된 비트스트림을 생성한다. 엔트로피 코딩을 제외했음에도 MPEG‑2보다 우수하고 H.264와 경쟁 가…

저자: Zhibo Chen, Tianyu He, Xin Jin

학습 기반 비디오 압축을 위한 픽셀모션CNN 설계와 구현
본 논문은 비디오 압축 분야에서 가장 큰 난제 중 하나인 모션 보상 기능을 딥러닝 모델에 효과적으로 통합하는 방법을 제시한다. 전통적인 하이브리드 비디오 코덱(H.264, H.265 등)은 모션 추정·보상, 변환·양자화, 엔트로피 코딩의 세 단계로 구성되며, 특히 모션 보상은 시간적 상관관계를 활용해 압축 효율을 크게 높인다. 그러나 기존 연구에서는 모션 추정 과정을 신경망에 직접 학습시키기가 매우 어렵고, 복잡도가 급증한다는 한계가 있었다. 이를 극복하고자 저자들은 PixelMotionCNN(PM CNN)이라는 새로운 프레임워크를 고안한다. PMCNN은 두 가지 핵심 모듈로 구성된다. 첫 번째는 “모션 확장(Motion Extension)”이다. 이는 이전 두 재구성 프레임(ˆf_{i‑2}, ˆf_{i‑1}) 사이에서 4×4 블록 매칭을 수행해 얻은 움직임 벡터(v_x, v_y)를 이용해 현재 프레임을 예비적으로 복원한다. 전통적인 모션 추정이 현재 블록을 기준으로 참조 프레임을 탐색하는 반면, 모션 확장은 이미 재구성된 이전 프레임을 기준으로 현재 프레임을 채워 넣는다. 따라서 움직임 벡터를 별도로 전송할 필요가 없으며, 사이드 정보 비용을 완전히 제거한다. 두 번째는 “하이브리드 예측(Hybrid Prediction)”이다. 여기서는 ConvLSTM과 Residual Block을 결합한 심층 컨볼루션 네트워크가 확장된 프레임과 현재 블록의 상·좌측 이웃 블록을 입력받아 현재 블록을 예측한다. ConvLSTM은 시간 축을 따라 흐르는 특징을 효과적으로 포착하고, Residual Block은 깊은 네트워크 학습 시 발생하는 기울기 소실 문제를 완화한다. 이렇게 얻어진 예측 블록 ˜b_{ij}는 실제 블록 b_{ij}와 차이를 계산해 잔차 r_{ij}=b_{ij}−˜b_{ij}를 만든다. 잔차는 이후 “반복적 분석/합성(Iterative Analysis/Synthesis)” 단계로 전달된다. 저자들은 Toderici 등(2016)의 LSTM 기반 자동인코더 구조를 차용해, 여러 단계에 걸쳐 잔차를 점진적으로 압축한다. 각 단계 n은 잔차 r^{(n)}를 입력받아 이산화된 표현을 생성하고, 이를 디코더를 통해 재구성된 잔차 \hat{r}^{(n)}를 얻는다. 재구성된 잔차를 원래 잔차에서 차감해 다음 단계의 입력으로 사용함으로써, 초기 단계에서는 큰 구조적 차이를, 후속 단계에서는 미세한 디테일만을 전송한다. 이 과정은 비트레이트를 가변적으로 조절할 수 있게 해준다. 양자화는 단순히 이산화(binarization) 레이어를 통해 수행되며, 현재 연구에서는 엔트로피 코딩을 적용하지 않았다. 그럼에도 불구하고 실험 결과는 MPEG‑2 대비 PSNR이 평균 1.2 dB 이상 향상되고, H.264와 거의 동등한 수준을 보였다. 특히 압축 비율이 약 1:575인 상황에서도 시각적으로 MPEG‑2보다 깨끗한 재구성 영상을 얻었으며, 이는 모션 확장과 하이브리드 예측이 잔차 에너지를 크게 감소시켰기 때문이다. 논문은 또한 기존 PixelCNN이 이미지 내부의 공간적 상관관계만을 모델링하는 반면, PMCNN은 시간적 상관관계까지 포함한 조건부 확률 모델을 블록 단위로 구현함으로써 시공간 전반에 걸친 효율적인 예측을 가능하게 했다고 강조한다. 실험에서는 순수 시공간 모델(픽셀CNN만 적용)과 비교했을 때, PMCNN 기반 시스템이 평균 0.8 dB 이상의 PSNR 향상을 달성했다. 결론적으로, 본 연구는 (1) 모션 벡터 전송을 배제한 모션 확장 기법, (2) ConvLSTM·ResBlock을 활용한 시공간 하이브리드 예측, (3) 다단계 LSTM 자동인코더를 통한 가변 비트레이트 잔차 압축이라는 세 가지 혁신을 제시한다. 향후 연구 과제로는 더 깊은 네트워크 구조, 멀티스케일 모션 모델, 실제 전송 환경을 고려한 엔트로피 코딩 및 오류 정정 기법의 통합이 있다. 이러한 방향은 차세대 4K/8K, HDR, VR 등 고해상도·고프레임레이트 영상 서비스에 학습 기반 코덱이 적용될 수 있는 기반을 마련한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기