컨텍스트 인식 이미지 익명화와 다중 에이전트 추론

본 논문은 거리 영상에서 개인식별정보(PII)를 보호하기 위해, 고신뢰 직접 식별 대상은 사전 정의된 파이프라인으로 처리하고, 맥락에 따라 나타나는 간접 식별자를 다중 에이전트가 라운드‑로빈 방식으로 협업하는 PDCA 사이클을 통해 탐지·분할·디퓨전 기반 재생성으로 익명화하는 CAIAMAR 프레임워크를 제안한다. 온‑프레미스 실행, 감사 로그 제공, 그리고 CUHK03‑NP와 CityScapes에서 각각 재식별 위험 73% 감소와 KID 0.0…

저자: Robert Aufschläger, Jakob Folz, Gautam Savaliya

컨텍스트 인식 이미지 익명화와 다중 에이전트 추론
본 논문은 거리 수준 이미지에서 개인식별정보(PII)를 보호하기 위한 새로운 프레임워크 CAIAMAR(Context‑Aware Image Anonymization with Multi‑Agent Reasoning)를 제안한다. 기존 방법은 직접 식별자(얼굴·전체 인체·번호판)만을 대상으로 하거나, 모든 픽셀에 일괄적으로 블러·GAN·Diffusion을 적용해 이미지 품질을 크게 저하시키는 한계가 있었다. 또한 API 기반 솔루션은 데이터 주권을 침해하고, 대형 비전‑언어 모델(VLM)이 맥락을 이용해 간접 식별자를 추론하는 위험을 간과했다. CAIAMAR는 이러한 문제점을 해결하기 위해 두 단계(Phase 1, Phase 2)와 다중 에이전트 협업을 결합한 구조를 설계하였다. Phase 1에서는 고신뢰 직접 PII를 사전 정의된 파이프라인으로 처리한다. 사람 전체는 YOLOv8‑seg( confidence τ = 0.25)로 검출하고, Qwen2.5‑VL‑32B를 이용해 자세·동작을 기술한 뒤, 사전 정의된 20가지 색상·10가지 밝기 팔레트 중 무작위로 선택해 의상 정보를 변형한다. 변형된 프롬프트와 OpenPose ControlNet을 결합한 Stable Diffusion XL(SDXL) 인페인팅을 768 px 해상도에서 수행해 외관을 완전히 탈동조화한다. 번호판은 YOLOv8‑s(UC3M‑LP 학습)로 저해상도에서 검출하고, 낮은 confidence τ = 0.05와 NMS IoU = 0.5를 적용해 높은 재현율을 확보한다. 검출된 번호판은 가우시안 블러(r = 8 px)로 알파벳·숫자를 흐리게 하면서 차량 맥락은 보존한다. 교통 표지판은 공개 정보이므로 YOLO‑TS로 검출 후 마스크만 생성해 이후 단계에서 제외한다. Phase 2는 다중 에이전트 시스템으로, Auditor, Orchestrator, Generative 세 에이전트가 AutoGen 기반 라운드‑로빈 대화와 PDCA 사이클을 통해 협업한다. Orchestrator는 전체 워크플로우 상태와 최대 반복 횟수(n_max = 3)를 관리한다. Auditor는 Qwen2.5‑VL‑32B를 활용해 PII 여부를 “공공”·“사적” 맥락에 따라 분류하고, 불확실하거나 실패한 경우 인간 검토를 요청한다. Generative는 “스카우트‑앵 줌” 전략을 적용한다. 먼저 전체 이미지에서 후보 영역을 빠르게 제시하고, Grounded‑SAM‑2를 이용해 정밀 세그멘테이션을 수행한다. 이후 IoU = 0.3 중복 필터링을 적용해 이미 처리된 영역을 제외하고, Canny ControlNet을 이용해 선택된 객체를 디퓨전 기반 인페인팅한다. Check 단계에서 Generative는 바운딩 박스 겹침을 검증하고, Auditor는 인페인팅 결과에 잔여 PII가 남아 있는지 시각적으로 검증한다. Auditor가 잔여가 없다고 판단하면 Orchestrator는 사이클을 종료하고, 잔여가 존재하고 n < n_max이면 추가 사이클을 수행한다. 이 과정을 통해 효율적인 중복 방지와 품질 보장이 동시에 이루어진다. 실험 설정은 두 개의 GPU를 사용해 YOLO, Grounded‑SAM‑2, SDXL, Qwen2.5‑VL‑32B 등을 병렬로 실행하였다. 평가 데이터는 (1) CityScapes(이미지 품질 보존), (2) CUHK03‑NP(재식별 위험), (3) Visual Redactions Dataset(PII 탐지 품질)이다. CityScapes에서는 KID = 0.001, FID = 9.1을 기록해 기존 블러·GAN·Diffusion 방법보다 현저히 높은 이미지 품질을 유지했다. CUHK03‑NP에서는 재식별 위험(R1) 62.4%에서 16.9%로 73% 감소했으며, 이는 외관 디코릴레이션과 맥락 기반 PII 차단이 효과적임을 증명한다. Visual Redactions Dataset에서는 간접 PII(의류·소지품·배경 객체) 탐지율이 기존 카테고리 기반 세그멘테이션보다 크게 향상되었고, downstream semantic segmentation 성능도 유지되었다. 프레임워크는 완전 온‑프레미스 실행을 전제로 하며, 오픈소스 모델(YOLOv8, Grounded‑SAM‑2, SDXL, Qwen2.5‑VL‑32B)만을 사용한다. 이를 통해 데이터 주권을 보장하고, GDPR 제13‑15조(투명성·정보 제공)와 제22조(자동화된 의사결정에 대한 인간 개입) 요구사항을 만족한다. 각 에이전트의 의사결정 과정과 도구 호출 결과는 구조화된 감사 로그로 자동 기록되어, 규제 당국이나 데이터 주체가 검증·감시할 수 있다. 결론적으로 CAIAMAR는 (1) 맥락 인식을 위한 다중 에이전트 협업과 유한 PDCA 사이클, (2) 외관 디코릴레이션을 통한 고품질 디퓨전 인페인팅, (3) 온‑프레미스·투명·감사 가능성을 동시에 만족하는 종합 익명화 파이프라인을 제공한다. 이 접근법은 자율주행, 스마트 시티, 감시 영상 등 대규모 거리 영상 데이터에서 프라이버시 보호와 데이터 활용을 동시에 달성하기 위한 실용적 기반을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기