언제든지 유효한 통계 워터마킹

본 논문은 대규모 언어 모델(LLM)의 출력에 삽입되는 통계적 워터마크를 검출하기 위한 새로운 프레임워크, ‘Anchored E‑Watermarking’을 제안한다. 기존의 통계 워터마킹은 두 가지 주요 문제점을 가지고 있었다. 첫째, 워터마크를 삽입하기 위한 샘플링 분포(시드 분포)의 선택이 경험적이고 이론적 근거가 부족했다. 둘째, 검출 단계가 고정된 토큰 수(고정 horizon)에서만 유효하며, 데이터가 지속적으로 흐르는 상황에서 임의로 중단하면 제1종 오류 보장이 무효화되는 ‘p‑해킹’ 문제에 직면했다. 이를 해결하기 위해 저자들은 e‑value와 테스트 슈퍼마르티니게 개념을 도입한다. e‑value는 null 가설 하에서 기대값이 1 이하인 비음수 확률 변수이며, 슈퍼마르티니게 형태로 구성될 경우 Ville’s inequality에 의해 언제든지 중단해도 제1종 오류가 사전 지정된 α 수준 이하로 유지된다. 따라서 검출자는 토큰 스트림을 실시간으로 모니터링하면서, 증거가 충분히 축적되면 즉시 검출을 종료할 수 있다. 핵심 구성 요소는 ‘앵커 분포(p₀)’이다. 생성자와 검출자는 동일한 앵커 분포에 접근하며, 이는 목표 분포(q)와 δ‑근접(δ‑proximity) 관계에 있다고 가정한다. 앵커 분포는 공개된 오픈소스 모델이나 사전 학습된 언어 모델을 활용해 얻을 수 있다. 생성 단계에서는 앵커 분포를 기반으로 시드 S를 샘플링하고, 시드와 토큰 V 사이에 의도적인 의존성을 부여한다(예: green‑red 리스트, 스펙투레이티브 디코딩). 이 과정에서 워터마크는 원본 텍스트의 품질을 크게 손상시키지 않으며, 분포적 왜곡을 최소화한다(디스토션‑프리). 검출 단계에서는 관측된 토큰 시퀀스와 복원된 시드 사이의 의존성을 측정하기 위해 e‑value를 계산한다. 저자들은 최악의 로그 성장률(log‑growth rate)을 최적화하는 e‑value를 도출하고, 이를 통해 기대 정지 시간(expected stopping time)이 log(1/α)/J* 로 표현되는 최적의 정지 규칙을 제시한다. 여기서 J*는 정리 1.1에서 제시된 식 \

언제든지 유효한 통계 워터마킹

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기