텍스트 기반 불변 특징 학습과 자동 증강을 이용한 카메라 강인 제로 워터마킹

본 논문은 카메라 재촬영 시 발생하는 복합적인 광학·기하학적 왜곡이 기존 딥러닝 기반 워터마킹 시스템의 복원률을 크게 저하시키는 문제를 해결하고자 한다. 이를 위해 제안된 TIACam 프레임워크는 세 가지 핵심 모듈로 구성된다. 첫 번째 모듈인 Learned Auto‑Augmentor는 기하학적 변환, 광학적 변환, 가우시안·모션 블러, JPEG‑유사 압축, 그리고 모아레 패턴 생성 등 총 6개의 차별화된 왜곡 연산자를 포함한다. 각 연산자는 파라미터화된 신경망 연산자로 구현되어 전체 파이프라인이 미분 가능하도록 설계되었다. 특히 투시 변환을 위한 3×3 행렬 A, 밝기·대비·감마 파라미터(α,β,γ), 노이즈 표준편차 σ, 블러 커널 K, 주파수 마스크 M, 모아레 진폭 α_moire와 주파수(fx,fy) 등을 학습한다. 증강기는 “특징 일관성을 가장 크게 해치는” 왜곡을 스스로 찾아내며, 이는 기존의 고정된 증강 레이어가 갖는 현실성 부족을 보완한다. 두 번째 모듈인 Text‑Anchored Invariant Feature Learner는 CLIP 이미지·텍스트 인코더를 기반으로 한다. 이미지 I와 그에 대응하는 캡션 T⁺를 긍정 쌍으로, 의미적으로 유사하지만 다른 캡션 T⁻를 부정 쌍으로 구성한다. 자동 증강기로부터 생성된 왜곡 이미지 I′도 동일한 텍스트와 정합하도록 학습한다. 이미지‑텍스트 페어를 구분하는 판별기 Dψ는 (F, E⁺)와 (F′, E⁺)를 실제(real)로, (F, E⁻)와 (F′, E⁻)를 가짜(fake)로 분류한다. 여기서 F = fθ(I), F′ = fθ(I′), E⁺ = gτ(T⁺), E⁻ = gτ(T⁻)이며, fθ는 고정된 CLIP 이미지 인코더 위에 추가된 학습 가능한 특징 추출기이다. 판별기 손실 L_disc와 특징 추출기 손실 L_adv를 교대로 최소‑최대 최적화함으로써, 이미지 특징은 텍스트 앵커와 강하게 정렬되고 왜곡에도 불변성을 유지한다. 이 과정은 정보 병목 원리와 연결되어, 특징 F가 텍스트와의 상호 정보는 최대화하고 이미지 자체와의 상호 정보는 최소화하도록 설계된다. 세 번째 모듈인 Zero‑Watermarking Head는 불변 특징 공간에 이진 워터마크를 바인딩한다. 사전 정의된 코드북 C∈ℝ^{d×k}에 특징 fθ(x)ᵀC를 투사하고 시그모이드 σ를 적용해 각 비트를 예측한다: ˆW = σ(fθ(x)ᵀC)。 워터마크는 이미지 픽셀을 직접 변경하지 않으므로 시각적 왜곡에 전혀 영향을 받지 않는다. 실험에서는 COCO‑derived 합성 데이터와 실제 카메라 촬영 데이터 두 가지 환경에서 평가하였다. 평가 지표는 (1) 특징 안정성(코사인 유사도), (2) 워터마크 복원 정확도(비트 오류율), (3) 기존 딥 워터마킹 및 제로 워터마킹 방법과의 비교이다. 결과는 TIACam이 기존 방법 대비 특징 유사도가 12%~18% 향상되고, 워터마크 복원 정확도는 95% 이상을 유지하면서 실제 카메라 촬영에서도 90% 이상의 성공률을 보였음을 보여준다. 특히 모아레·압축·조명 변동을 동시에 포함한 복합 왜곡에서도 견고한 성능을 입증하였다. 논문의 주요 기여는 다음과 같다. (i) 차별화된 물리‑기반 왜곡을 학습 가능한 형태로 구현한 자동 증강기, (ii) 텍스트 앵커를 활용한 의미 기반 불변 특징 학습 프레임워크, (iii) 불변 특징 공간에 워터마크를 바인딩하는 제로 워터마킹 헤드. 한계점으로는 자동 증강기의 파라미터 초기화와 학습 안정성, 텍스트 캡션의 품질 의존성, 그리고 전체 파이프라인의 연산 비용이 있다. 향후 연구는 (a) 물리 기반 시뮬레이션과 자동 증강기의 결합, (b) 멀티모달(음성·비디오) 앵커 확장, (c) 경량화된 모델 설계 등을 통해 실시간 및 임베디드 환경 적용 가능성을 탐색할 수 있다.

텍스트 기반 불변 특징 학습과 자동 증강을 이용한 카메라 강인 제로 워터마킹

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기