압축된 JPEG을 초고해상도로 복원하는 GAN과 강화학습 하이브리드
본 논문은 JPEG으로 저해상도 압축된 이미지를 초고해상도로 복원하기 위해, SRGAN 기반의 인코더‑디코더 구조에 비동기식 Actor‑Critic(A3C) 강화학습을 결합한 새로운 파이프라인을 제안한다. GAN 손실과 함께 PSNR을 간접적으로 최대화하는 RL 손실을 설계하여, 기존 SRGAN 및 전통적 Lanczos 보간에 비해 PSNR와 MS‑SSIM에서 소폭 향상을 보였다.
저자: Nicolo Savioli
본 논문은 저해상도 JPEG 이미지로부터 고해상도(HR) 이미지를 복원하는 새로운 딥러닝 기반 압축‑복원 시스템을 제안한다. 기존 이미지 압축 방식은 주로 변환·양자화·엔트로피 코딩 과정을 거치지만, 최근에는 자동 인코더 구조를 활용한 end‑to‑end 학습이 활발히 연구되고 있다. 저자는 이러한 흐름을 이어가면서, SRGAN(Generative Adversarial Network 기반 초고해상도 복원) 구조에 비동기식 Actor‑Critic(A3C) 강화학습을 결합한다.
시스템은 크게 인코더, 디코더, 판별기 세 부분으로 구성된다. 인코더는 9×9 커널을 가진 첫 레이어와 5개의 Residual Block으로 이루어진 ResNet 형태이며, 입력은 JPEG으로 압축·다운샘플링된 저해상도 이미지(I_LR)이다. 디코더는 8개의 sub‑pixel convolution 레이어를 사용해 인코더의 특성 맵을 고해상도로 확대한다. 인코더와 디코더가 결합된 전체 생성기 H(·)는 VGG‑19 기반의 판별기 D(·)와 경쟁하면서 전통적인 GAN 손실(l_HR_GAN)을 최소화한다.
핵심 혁신은 PSNR와 같은 품질 지표를 직접 손실로 사용하지 않고, 강화학습을 통해 간접적으로 최적화한다는 점이다. 저자는 인코더 출력에 완전 연결층을 추가해 현재 PSNR 예측값(PSNR_pred)을 행동으로 정의하고, 이를 정책 네트워크 π로 본다. 보상 r(i)는 현재 단계의 PSNR가 이전 단계보다 높으면 1, 그렇지 않으면 0으로 설정한다. 누적 보상 R(i)는 할인 인자 γ를 적용해 장기적인 개선을 장려한다. 정책 그라디언트는 REINFORCE 방식에 베이스라인 V(I_LR) (비평가) 를 빼는 형태로 계산되며, 이는 가치 네트워크 V_π가 학습한다. 이렇게 정의된 RL 손실 l_HR_RL은 정책 그라디언트와 가치 오차를 결합한 형태이며, 전체 손실 l_HR_PL은 일정 단계마다 RL 손실을 SRGAN 손실에 가중치 5e‑3으로 더해 최종 목표를 만든다.
실험은 CLIC 압축 데이터셋을 사용했으며, 학습은 ADAM 옵티마이저(learning rate 1e‑3)로 22 876번의 iteration까지 진행했다. 검증 셋에서 제안된 RL‑SRGAN은 PSNR 22.34 dB, MS‑SSIM 0.783을 기록해 기존 SRGAN(22.15 dB, 0.780)과 Lanczos 보간(21.44 dB, 0.760)보다 우수했다. 테스트 셋에서는 PSNR 20.06 dB, MS‑SSIM 0.7503을 달성했으며, 압축률은 원본 대비 약 10% 감소하였다. 그러나 저해상도 JPEG을 과도하게 다운샘플링한 것이 성능 한계로 작용해 테스트 결과가 검증보다 낮은 것이 확인되었다.
논문의 주요 기여는 다음과 같다. 첫째, JPEG 다운샘플링 후 초고해상도 복원을 목표로 한 새로운 압축‑복원 파이프라인을 제시했다. 둘째, 비미분 가능 지표를 강화학습으로 간접 최적화하는 방법론을 도입해, 향후 DTW와 같은 비유클리드 거리 함수에도 적용 가능함을 보였다. 셋째, 기존 SRGAN 대비 일관된 품질 향상을 실험적으로 입증했다. 향후 연구에서는 더 정교한 다운샘플링 전략, 다중 스케일 정책 네트워크, 그리고 다양한 비미분 가능 평가 지표에 대한 RL 기반 최적화를 탐색할 여지가 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기