JPEG2000 압축 이미지의 DWT 계수 직접 활용을 통한 초고속·고정밀 분류

본 논문은 클라우드 기반 이미지 분류 시스템에서 JPEG2000(j2k) 압축 스트림을 그대로 활용해 이미지 복원 과정을 생략하고, 직접 추출한 CDF 9/7 이산 웨이브렛 변환(DWT) 계수를 딥러닝 모델의 입력으로 사용하는 방법을 제안한다. JPEG2000 인코더는 RGB 이미지를 YCbCr 색공간으로 변환한 뒤, CDF 9/7 웨이브렛을 적용해 레벨‑1 DWT 계수를 생성하고 이를 양자화·압축한다. 기존 시스템은 이 스트림을 디코딩한 뒤 역웨이브렛(IDWT)과 색공간 복원을 수행해 RGB 이미지를 복원하고, 이를 CNN에 입력한다. 논문은 이러한 복원 단계가 전체 디코딩 시간의 80 % 이상을 차지한다는 점을 지적하고, 복원을 건너뛰고 바로 DWT 계수를 활용함으로써 ‘재구성 이득(reconstruction gain)’을 얻을 수 있음을 실험적으로 입증한다. DWT 계수는 레벨‑1에서 Y, Cb, Cr 각각 4개의 서브밴드(LL, LH, HL, HH)로 구성되며, 이를 12채널 텐서로 재배열해 ResNet에 입력한다. 이때 입력 차원은 RGB(3채널)보다 4배 많지만, 각 채널의 해상도는 절반이므로 전체 연산량은 오히려 감소한다. 실험에서는 ResNet‑20, 32, 44 등 6가지 구조를 비교했으며, DWT 입력에서는 레지듀얼 블록 수를 절반 이하로 줄여도 CIFAR‑10에서 91.9 % 이상의 정확도를 달성했고, 동일한 정확도 수준을 유지하면서 훈련·추론 속도가 1.5~2배 빨라졌다. 데이터 증강 측면에서, 기존의 좌우 반전, 회전, 이동 등 공간 도메인 변환은 DWT 계수에 그대로 적용하면 고주파 서브밴드가 뒤섞여 이미지가 왜곡되는 문제가 발생한다. 이를 해결하기 위해 논문은 웨이브렛 변환 행렬 **A**(예측·업데이트·디인터리빙 단계)를 이용해 공간 변환 **H**를 변환 영역에 매핑하는 새로운 연산 **Ĥ = A⁻¹ H A**를 제안한다. 이 연산은 고주파와 저주파 성분을 각각 보존하면서도 이미지 전체를 효과적으로 뒤집거나 이동시킬 수 있다. 제안된 증강을 적용한 결과, 기존 증강만 사용했을 때보다 CIFAR‑10에서 3 %p 정도 정확도가 상승했으며, Tiny‑ImageNet에서도 일관된 성능 향상이 관찰되었다. 대역폭 제한 상황을 고려해 JPEG2000 압축 비율 **r**을 변화시켰으며, 압축률이 높아질수록 DWT 계수의 양자화 정도가 증가한다. 실험 결과, DWT 기반 모델은 압축률이 증가해도 정확도 저하가 미미했으며, RGB 기반 모델보다 더 안정적인 성능을 보였다. 또한, 최대 대역폭(압축 없는) 상황에서 사전 학습된 모델을 이용해 다른 압축 비율에 대해 미세 조정(fine‑tuning)하면 훈련 시간이 75 % 절감되고, 최종 정확도는 거의 동일하게 유지된다. 이는 전이 학습이 변환 영역에서도 유효함을 의미한다. 구현 측면에서는 OpenJPEG 오픈소스 코드를 수정해 DWT 계수를 추출하고, 행렬 **A**와 **A⁻¹**을 미리 계산해 저장함으로써 32×32×3 이미지 10 000장을 변환하는 데 걸리는 시간을 4분에서 0.5초로 단축했다. 이는 CPU 기반 실시간 서비스에서도 충분히 적용 가능한 수준이다. 전체적으로 이 연구는 JPEG2000 압축 이미지의 직접 활용이라는 새로운 패러다임을 제시한다. 재구성 비용을 없애고, 얕은 네트워크와 변환 영역 전용 증강을 결합함으로써 연산 효율, 대역폭 효율, 분류 정확도 세 축을 동시에 최적화한다. 제안된 방법은 클라우드·엣지 협업, IoT 센서 네트워크, 5G 기반 실시간 비전 서비스 등 제한된 자원 환경에서 고성능 이미지 인식이 요구되는 다양한 응용 분야에 바로 적용 가능할 것으로 기대된다.

JPEG2000 압축 이미지의 DWT 계수 직접 활용을 통한 초고속·고정밀 분류

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기