다중 경계 교차 기반 복합 샘플 지문으로 모델 고유성·내구성 강화
IrisFP는 모델의 모든 클래스 결정 경계가 교차하는 지점을 목표로 하는 적대적 예제 기반 지문을 생성하고, 각 지문에 다수의 변형 샘플을 결합한 복합‑샘플 지문을 만든다. 통계적 구분력 측정으로 고유성을 평가·선별하고, 지문별 임계값을 부여해 소유권 검증의 정확도와 변조 공격에 대한 견고성을 동시에 크게 향상시킨다.
저자: Ziye Geng, Guang Yang, Yihang Chen
본 논문은 딥러닝 모델의 지식 재산 보호를 위해 적대적‑예제 기반 모델 지문 기술을 발전시키는 새로운 프레임워크 IrisFP를 제안한다. 기존 연구들은 주로 단일 결정 경계에 근접한 적대적 샘플을 이용해 모델‑특이적 출력을 유도했지만, 이는 변조 공격(미세조정, 프루닝 등)에 취약하거나 고유성을 충분히 확보하지 못하는 문제를 안고 있었다. 저자들은 이러한 딜레마를 해결하기 위해 세 가지 핵심 아이디어를 도입한다.
첫 번째는 “다중 경계 교차점”에 지문을 위치시키는 것이다. 모델 f의 C개의 클래스 결정 경계가 모두 교차하는 영역은 각 클래스에 대한 확률이 거의 균등하게 분포하면서도 특정 목표 클래스에 대한 신뢰도가 높은 특성을 가진다. 이를 활용해 시드 샘플 ˆx₀ᵢ를 생성할 때, 목표 클래스 ˆy₀ᵢ에 대한 편향 확률 pᵢ를 정의하고 KL‑다이버전스를 최소화하면서 L₁ 정규화로 교란 크기를 제한한다. 결과적으로 ˆx₀ᵢ는 다중 경계에 가깝고, 예측 마진이 크게 확보돼 변조에 대한 내구성이 향상된다.
두 번째는 “복합‑샘플 지문”이다. 각 시드에 대해 T개의 작은 교란 δₜᵢ를 추가해 변형 샘플 ˆxₜᵢ=ˆx₀ᵢ+δₜᵢ를 만든다. 각 변형은 무작위 목표 클래스 ˆyₜᵢ와 편향 확률 pₜᵢ를 갖고, 평균 KL‑다이버전스와 L₁ 정규화를 동시에 최소화한다. 이렇게 생성된 T+1개의 샘플이 하나의 복합‑샘플 지문 Tᵢ를 이루며, 보호 모델은 각 변형에 대해 서로 다른 출력을 내지만 독립 학습 모델은 대체로 일관된 출력을 보인다. 따라서 고유성을 평가할 때 TNR이 크게 상승하고, 변조 모델이 일부 변형에만 일치하더라도 전체 매칭 비율이 낮아 TPR도 유지된다.
세 번째는 “지문 구분력 평가 및 정제”이다. 저자들은 두 개의 레퍼런스 모델 집합을 구축한다. 첫 번째는 의도적으로 변조된 복제 모델, 두 번째는 동일 데이터셋으로 독립 학습된 모델이다. 각 복합‑샘플 지문에 대해 매칭 비율을 계산하고, Cohen’s d와 같은 효과 크기 지표를 사용해 구분력을 정량화한다. 구분력이 높은 상위 k개의 지문만을 최종 지문 집합으로 선정하고, 각 지문마다 개별 임계값 θ를 설정한다. 이는 검증 단계에서 false‑positive와 false‑negative를 균형 있게 제어한다.
검증 절차는 두 단계로 구성된다. (1) Ownership Matching: 각 복합‑샘플 지문의 모든 변형에 대해 매칭 비율을 구하고, 사전에 정의된 θ와 비교해 매칭 여부를 판단한다. (2) Decision Aggregation: 전체 지문 중 매칭된 비율이 사전 설정된 전체 임계값을 초과하면 모델을 ‘pirated’로, 그렇지 않으면 ‘independent’로 판정한다.
실험에서는 CIFAR‑10, Fashion‑MNIST, ImageNet‑subset을 사용해 ResNet‑18, VGG‑16, MobileNet‑V2 등 다양한 아키텍처에 IrisFP를 적용하였다. 변조 공격으로는 미세조정(FT), 프루닝(PR), 적대적 훈련(AT), 지식 증류(KD) 및 이들의 복합 시나리오를 고려했다. 기존 방법(IPGuard, UAP, ADV‑TRA, AKH 등)은 변조 강도가 증가할수록 TPR이 급격히 감소하거나 TNR이 낮아지는 현상이 관찰되었다. 반면 IrisFP는 모든 실험 설정에서 TNR과 TPR 모두 0.85 이상을 유지했으며, 특히 강도 높은 프루닝(90%)·미세조정 조합 상황에서도 0.80 수준의 TPR을 기록했다. 또한, 복합‑샘플 지문의 개수 T와 시드 수 N_f를 늘릴수록 구분력 지표가 향상되는 경향을 보였으며, 이는 설계상의 확장성을 입증한다.
논문의 한계로는 복합‑샘플 지문 생성 시 최적화 비용이 비교적 높아 대규모 모델에 적용할 때 시간·자원 소모가 크다는 점이다. 또한, τ와 λ₁, λ₂ 같은 하이퍼파라미터가 데이터·모델에 따라 민감하게 작용할 수 있어 자동 튜닝 메커니즘이 필요하다. 마지막으로, 구조적 변조(예: 레이어 삽입·삭제)와 같은 극단적인 공격에 대한 평가가 부족하다.
결론적으로 IrisFP는 다중 경계 교차점에 기반한 고마진 샘플과 복합‑샘플 구성을 통해 모델 지문의 고유성과 내구성을 동시에 크게 향상시킨다. 통계적 구분력 평가와 지문별 임계값 설정은 실용적인 소유권 검증 파이프라인을 제공하며, 향후 비용 효율적인 샘플 선택 및 비지도 경계 탐색 기법을 결합한다면 실제 산업 현장에서의 적용 가능성이 더욱 확대될 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기