딥 회귀 기반 비선형 이미지 예측 및 손실 없는 코딩

본 논문은 딥 컨볼루션 신경망(DCNN)을 이용해 다차원 신호, 특히 2차원 이미지의 순차적 예측 정확도를 극대화하는 새로운 프레임워크를 제시한다. 서론에서는 기존 이미지 코딩에 사용되는 선형 예측기의 한계—고정된 인접 컨텍스트, 비등방성 신호 특성 반영 부족, 최적 설계의 계산 복잡도—를 지적하고, 이러한 문제를 해결하기 위해 딥러닝이 제공하는 비선형 모델링 능력을 도입한다. 저자들은 두 단계의 딥 회귀 구조를 설계한다. 첫 단계에서는 PredNet이라는 네트워크를 구축한다. 이 네트워크는 21×21 크기의 인과적 컨텍스트를 입력으로 받아 16개의 residual block으로 구성된 컨볼루션 모듈을 통해 특징을 추출하고, 평탄화 후 선형 회귀 레이어를 통해 현재 픽셀 값을 예측한다. 세 가지 손실 함수(ℓ₁, ℓ₂, ℓ∞)를 각각 최소화하도록 독립적으로 학습한 PredNet‑ℓ₁, PredNet‑ℓ₂, PredNet‑ℓ∞를 만든다. ℓ₁ 손실은 라플라시안 분포를 따르는 잔차의 엔트로피와 직접 연관이 있어 손실 없는 코딩에 가장 적합하고, ℓ₂와 ℓ∞는 평균 제곱 오차와 최대 절대 오차를 최소화해 다른 품질 지표를 보완한다. 두 번째 단계인 정제 회귀에서는 첫 단계에서 얻은 세 예측값을 새로운 입력으로 받아 또 다른 DCNN(정제 회귀 네트워크)으로 최종 예측값을 생성한다. 여기서는 ℓ₁ 손실을 다시 적용해 엔트로피 최소화를 목표로 한다. 또한, 회귀 레이어 가중치에 ℓ₁ 정규화를 적용해 가중치를 희소하게 만들고, 이는 실제로 불필요한 컨텍스트 픽셀을 자동으로 배제한다. 실험 설정에서는 DIV2K, CLIC, Flickr2K 등 고품질 2K 해상도 이미지 데이터셋에서 수백만 개의 패치를 추출해 학습했으며, Kodak 손실 없는 이미지 데이터셋을 테스트베이스로 사용했다. 학습 하이퍼파라미터는 컨텍스트 크기 21×21, 학습률 1e‑4, 정규화 계수 λ=0.2, Adam 옵티마이저(β₁=0.9, β₂=0.99, ε=1e‑8) 등으로 설정하였다. 결과는 표 1에 요약되어 있다. 첫 단계에서 PredNet‑ℓ₁은 ℓ₁ 노름과 엔트로피에서 기존 GAP와 MDL‑PAR보다 우수했으며, PredNet‑ℓ₂와 PredNet‑ℓ∞는 각각 ℓ₂, ℓ∞ 기준에서 최고 성능을 보였다. 정제 회귀인 PredNet‑R은 세 예측값을 결합해 ℓ₁ 노름을 4.48, 엔트로피를 4.25 비트/픽셀로 더욱 낮추어, 기존 최첨단 MDL‑PAR(4.40, 0.24)보다 현저히 개선하였다. 시각적으로도 잔차 이미지에서 구조가 거의 사라진 것을 Fig. 4·5에서 확인할 수 있다. 계산 효율성 측면에서는 오프라인 학습을 제외하고 512×512 이미지당 약 30초만 소요돼, 픽셀당 최적화 문제를 푸는 MDL‑PAR(수시간)보다 훨씬 빠르다. 결론에서는 DCNN 기반 비선형 예측이 선형 방법의 한계를 뛰어넘어 손실 없는 이미지 코딩, 잡음 제거, 신호 분석 등 다양한 다차원 신호 처리 분야에 적용 가능함을 강조한다. 향후 연구에서는 더 깊은 네트워크 구조, 다른 정규화 기법, 그리고 비디오나 3D 데이터와 같은 고차원 신호에 대한 확장을 제안한다.

딥 회귀 기반 비선형 이미지 예측 및 손실 없는 코딩

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기