신경 재합성에도 살아남는 오디오 워터마크 라텐트‑마크
라텐트‑마크는 기존 파형 수준 워터마크가 신경 오디오 코덱의 의미적 압축에 의해 사라지는 문제를 해결한다. 워터마크를 코덱의 불변 잠재공간에 방향성 변화를 일으키도록 파형을 최적화하고, 여러 대리 코덱에 동시에 적용하는 교차‑코덱 최적화를 도입해 보이지 않으면서도 신경 재합성 및 전통적인 DSP 공격에 강인한 제로‑비트 워터마크를 구현한다.
저자: Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou
본 논문은 오디오 워터마크 분야에서 새롭게 떠오른 위협, 즉 신경 오디오 코덱에 의한 ‘신경 재합성(Neural Resynthesis)’ 공격을 집중적으로 분석하고, 이를 극복하기 위한 프레임워크 ‘Latent‑Mark’를 제안한다. 기존 워터마크는 파형 혹은 스펙트로그램 수준에서 인간이 듣기 어려운 미세한 변조를 삽입해 검출기와 매칭시키는 방식으로 설계되었으며, MP3, AAC와 같은 전통적인 손실 압축이나 필터링, 리샘플링 등 DSP 변형에 대해 강인함을 입증해 왔다. 그러나 최신 신경 코덱(EnCodec, SNAC, DAC 등)은 입력 오디오를 연속 잠재벡터 z로 인코딩하고, 이를 벡터 양자화(VQ)하여 이산 토큰 시퀀스로 변환한 뒤 디코더가 완전 새로운 파형을 재생성한다. 이 과정은 ‘의미적 압축(semantic bottleneck)’이라 불리며, 파형 수준의 미세 변조는 양자화 단계에서 잡음으로 간주되어 버린다. 저자들은 실험적으로 AudioSeal을 SNAC 코덱에 통과시켰을 때, 원본과 워터마크가 거의 구분되지 않지만 코덱 통과 후에는 위상과 진폭이 크게 변형되어 워터마크가 완전히 사라지는 현상을 확인한다.
이러한 문제를 해결하기 위해 Latent‑Mark는 워터마크를 ‘잠재공간 방향성 이동(latent‑space shift)’ 형태로 재정의한다. 구체적으로, 워터마크를 삽입하고자 하는 오디오 s에 작은 교란 δ를 더해 sʹ = s + δ를 만든다. 여기서 δ는 L∞ norm 제약 ε 이하로 제한되며, ε는 목표 SDR에 따라 동적으로 조정된다. 워터마크 삽입 목표는 인코더 E가 출력하는 연속 잠재벡터 z에 대해 비밀 매니폴드 축 v₍c₎와의 내적을 최대화하는 것이다. 수식으로는 max₍δ₎ ⟨E(s + δ), v₍c₎⟩ subject to ‖δ‖∞ ≤ ε 로 표현된다. 이 최적화는 백프로파게이션을 통해 파형 수준에서 직접 수행되며, 파형 변형이 인간 청각에 미치는 영향을 최소화하기 위해 PESQ, STOI 등 청각 품질 지표를 보조 손실로 포함한다.
단일 코덱에만 최적화하면 해당 코덱의 양자화 규칙에 과적합될 위험이 있다. 이를 방지하고 ‘제로‑샷 전이(zero‑shot transferability)’를 확보하기 위해 저자들은 ‘교차‑코덱 최적화(Cross‑Codec Optimization)’를 도입한다. 여러 대리 코덱 {c₁, c₂, …, cₙ}의 인코더 Eᵢ와 양자화 Qᵢ를 동시에 고려해 δ를 공동 최적화함으로써, 서로 다른 코드북 구조와 양자화 스케일에 공통적으로 존재하는 잠재 불변성을 학습한다. 이 과정은 각 코덱별 손실 Lᵢ = ‑⟨Qᵢ(Eᵢ(s + δ)), vᵢ⟩ 을 평균하거나 가중합하여 전체 손실 L = ∑₍i₎ αᵢ Lᵢ 을 최소화한다. 결과적으로, 보이지 않는 제로‑비트 워터마크가 다양한 신경 코덱에 대해 동일한 잠재 방향성을 유지한다.
실험에서는 LibriSpeech와 VCTK 데이터셋을 사용해 10초 길이의 음성 샘플에 Latent‑Mark를 적용하였다. 평가 항목은 (1) 검출 정확도(Detection Accuracy), (2) 청각 품질(PESQ, STOI), (3) 전통적인 DSP 공격에 대한 복원율, (4) 교차‑코덱 전이 성능이다. 신경 코덱 단일 패스(EnCodec, SNAC, DAC) 후에도 평균 검출 정확도는 94 % 이상을 기록했으며, 기존 워터마크(AuidoSeal, WaveMark, Timbre)는 20 % 이하로 급락했다. 또한, Gaussian 노이즈(SNR = 30 dB), 2× 스케일링, 48 kHz→44.1 kHz 리샘플링, 4 kHz 밴드패스 필터링 등 전통적인 DSP 공격에 대해서도 Latent‑Mark는 85 % 이상의 복원율을 유지했다. 청각 품질 측면에서는 ε = 0.002 (≈ −30 dB) 설정 시 PESQ ≈ 4.3, STOI ≈ 0.96을 기록해 인간 청취자가 차이를 감지하기 어려운 수준을 보였다.
논문의 주요 기여는 다음과 같다. 첫째, 신경 재합성을 ‘새로운 공격 벡터’로 정의하고, 기존 워터마크가 왜 취약한지 이론적·실험적 근거를 제시한다. 둘째, 워터마크를 코덱의 불변 잠재공간에 삽입하는 ‘Latent‑Mark’ 프레임워크를 설계하고, 제로‑비트 워터마크 개념을 도입해 payload 없이 존재 여부만 검증하도록 한다. 셋째, 교차‑코덱 최적화를 통해 모델‑특이적 과적합을 방지하고, 보이지 않는 제로‑샷 전이 능력을 입증한다. 넷째, 전통적인 DSP 공격과 신경 코덱 공격 모두에 대해 기존 최첨단 방법을 능가하는 강인성을 보이며, 청각 품질 저하 없이 실용성을 확보한다.
한계점으로는 (1) 매우 낮은 SNR 환경에서 잠재 축 투영 점수가 감소해 검출률이 떨어질 수 있다는 점, (2) 실시간 임베딩을 위한 연산 비용이 아직 명시되지 않아 대규모 스트리밍 서비스 적용에 추가 최적화가 필요하다는 점, (3) 다중 코덱 체인(예: 코덱 → 노이즈 억제 → 코덱)에서의 복합 효과에 대한 정량적 분석이 부족하다는 점을 들 수 있다. 향후 연구는 잡음‑강인한 매니폴드 축 설계, 경량화된 gradient‑based 임베딩 알고리즘, 그리고 영상·텍스트와 연계된 멀티‑모달 워터마크 체계 구축을 목표로 한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기