구조 인식 딥 CNN을 활용한 역할톤화

본 논문은 디지털 프린터·복사기 등에서 사용되는 이진 Halftone 이미지로부터 원본 연속톤 이미지를 복원하는 역할톤화(inverse halftoning) 문제를 다룬다. 기존 연구들은 전역적인 회귀 모델이나 사전 학습된 사전(dictionary) 기반 방법을 사용했지만, Halftone 변환 과정에서 발생하는 정보 손실(특히 평탄 영역의 잡음 점과 텍스처 영역의 구조 손실)을 동시에 해결하기엔 한계가 있었다. 이를 극복하고자 저자는 “구조‑인식” 딥 컨볼루션 신경망(Structure‑Aware DCNN)을 제안한다. 네트워크는 크게 세 개의 서브네트워크와 하나의 퓨전 레이어로 구성된다. 첫 번째 서브네트워크인 IRS(Initial Reconstruction Subnetwork)는 전통적인 DCNN과 동일하게 Halftone 이미지를 입력받아 초기 연속톤 이미지를 생성한다. 이 단계에서는 5×5 필터와 ReLU 활성화를 여러 층 쌓아 저수준 특징을 추출하고, 사전 학습 단계에서 MSE 손실을 최소화한다. 두 번째 서브네트워크인 ISMP(Image Structure Map Predictor)는 IRS의 마지막 특징 맵을 입력으로 받아, Sobel 연산을 통해 얻은 그라디언트 패치를 정답으로 삼아 이미지 구조 맵을 학습한다. 여기서 중요한 점은 Halftone 이미지 자체가 아닌, 초기 복원된 연속톤 이미지에서 구조 정보를 추출한다는 점이다. 이는 Halftone 이미지가 이진화 과정에서 많은 정보를 잃기 때문에, 보다 풍부한 연속톤 정보를 활용해 구조를 예측하는 것이 효과적임을 의미한다. ISMP는 입력‑출력 쌍이 각각 Halftone 이미지와 그라디언트 패치가 되므로, 네트워크는 “어디가 평탄하고 어디가 텍스처가 풍부한가”에 대한 명시적인 판단 기준을 학습한다. 세 번째 서브네트워크인 RS(Reconstruction Subnetwork)는 Halftone 이미지, IRS가 만든 초기 연속톤 이미지, 그리고 ISMP가 출력한 구조 맵을 채널 차원으로 결합(concatenation)한 뒤, 다시 여러 Conv‑ReLU 블록을 통과시켜 최종 연속톤 이미지를 복원한다. 이때 구조 맵은 RS에 직접적인 가이드 역할을 하여, 평탄 영역에서는 노이즈 억제에, 텍스처 영역에서는 세부 디테일 보존에 기여한다. 전체 모델은 end‑to‑end 방식으로 학습되며, ISMP와 RS가 동시에 최적화된다. 학습 데이터는 General‑100, Urban‑100, BSDS100/200 등 500장의 그레이스케일 이미지와 오류 확산(error diffusion) 방식으로 생성한 Halftone 이미지로 구성하였다. 각 이미지에서 32×32 크기의 패치를 무작위로 추출했으며, Halftone 패치와 대응되는 연속톤 패치, 그리고 Sobel 연산을 통해 얻은 그라디언트 패치를 각각 입력, 정답으로 사용하였다. 네트워크는 미니배치 SGD(learning rate = 1e‑5, epoch = 200, batch = 64)로 학습되었고, 모든 손실은 L2‑norm 기반 MSE로 정의하였다. 성능 평가는 PSNR과 SSIM을 사용했으며, 제안 모델은 기존 DCNN

구조 인식 딥 CNN을 활용한 역할톤화

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기