시간에 따라 변하는 이상치 탐지와 도메인 일반화를 위한 시각‑언어 모델

본 논문은 비전‑언어 모델(VLM) 기반 OOD(Out‑of‑Distribution) 탐지의 현주소를 진단하고, 특히 시간에 따라 변하는 데이터 분포와 공변량 이동에 대한 취약점을 보완하는 새로운 프레임워크 T‑QPM(Temporal Quadruple‑Pattern Matching)을 제안한다. 기존 연구인 Dual‑Pattern Matching(DPM)은 시각‑텍스트 두 패턴(이미지‑텍스트 매칭과 이미지‑시각 전형성)만을 활용해 정적인 환경에서 OOD를 탐지했으며, 이는 시간적 드리프트와 공변량 변형에 대해 충분히 강인하지 못했다. T‑QPM은 이러한 한계를 극복하기 위해 네 가지 교차‑모달 점수를 동시에 고려한다. 첫 번째는 기존 DPM과 동일한 이미지‑텍스트 매칭 스코어(S_ID)로, 테스트 이미지와 사전 정의된 클래스 텍스트 프로토타입 사이의 코사인 유사도를 최대값으로 사용한다. 두 번째는 이미지‑시각 전형성 스코어(S_VIS)로, 현재 시점 t에서 학습된 시각 프로토타입 µ_{k,t}와 테스트 이미지의 확률 분포 p(x) 사이의 KL 발산을 최소화한다. 이는 시각적 분포가 시간에 따라 변해도 “정상” 이미지가 어떤 형태인지 동적으로 정의한다. 세 번째와 네 번째 스코어는 캡션을 활용한다. 캡션‑텍스트 정렬 스코어(S_CAP‑T)는 테스트 이미지에 부착된 자연어 캡션을 텍스트 인코더로 임베딩한 뒤, 클래스 텍스트 프로토타입과의 내적을 최대화한다. 이는 텍스트 레벨에서 ID 클래스와 의미적 겹침을 측정한다. 캡션‑시각 정렬 스코어(S_CAP‑V)는 캡션 임베딩을 이용해 가상의 텍스트‑시각 로짓을 생성하고, 이를 현재 시점의 시각 프로토타입과 비교해 KL 발산을 계산한다. 이 과정은 캡션이 시각적 통계와 얼마나 일치하는지를 정량화해, 텍스트와 이미지 간 불일치를 OOD 신호로 활용한다. 네 점수는 단순 평균이 아니라 학습 가능한 양의 가중치 β와 η를 통해 융합한다. β와 η는 Softplus 변환을 거쳐 양수로 제한되며, 전체 파라미터 수는 두 개의 스칼라에 불과해 경량화된 파인튜닝이 가능하다. 캡션 기반 점수는 부정적인 방향(빼기)으로 결합되어, 캡션이 ID 텍스트와 강하게 정렬될수록 시각적 내용이 다를 경우 OOD로 판단하도록 설계되었다. 시간적 일관성을 유지하기 위해 초기 시점 t=0에서 ID 학습 데이터의 융합 점수 분포를 기준으로 임계값 δ를 설정하고, 이후 모든 시점에서 동일한 δ를 적용한다. 이는 모델이 시간에 따라 스코어 스케일이 변하는 것을 방지한다. 또한 Temporal Drift Penalty로서 Average Thresholded Coverage(ATC)를 도입해, 각 시점에서 ID 샘플이 δ 위에 머무르는 비율을 부드러운 시그모이드 형태로 정규화한다. 이 정규화는 분포 이동이 심해지더라도 ID 커버리지를 일정 수준 유지하도록 압력을 가한다. 학습 목표는 세 가지 손실의 가중합이다. (1) Balanced ID Classification Loss는 원본 이미지와 공변량 변형(예: 노이즈, 블러)된 이미지 모두에 대해 교차 엔트로피를 최소화해, 분류 정확도와 공변량 강인성을 동시에 확보한다. (2) Covariate Consistency Loss는 동일 이미지의 깨끗한 버전과 변형 버전 사이의 융합 점수 차이를 L1 손실로 최소화해, OOD 스코어가 공변량 변화에 민감하지 않도록 만든다. (3) Temporal Drift Penalty는 ATC를 최대화하는 형태로 구현되어, 시간에 따른 ID 커버리지가 감소하는 것을 억제한다. 실험에서는 시계열로 분할된 ImageNet‑R, CIFAR‑10‑C, 그리고 도메인 이동이 포함된 DomainNet을 활용해, 각 시점마다 모델을 재학습하지 않고도 OOD 검출 AUROC을 크게 향상시켰다. 특히, DPM 대비 평균 7~9%p 상승을 기록했으며, 공변량 변형이 강한 상황에서도 기존 방법보다 낮은 False Positive Rate를 유지했다. 이러한 결과는 T‑QPM이 시각‑텍스트 양쪽 모두에서 정보를 효율적으로 결합하고, 시간적·공변량적 변동에 대한 내성을 갖춘 점을 입증한다. 결론적으로, T‑QPM은 (1) 네 가지 교차‑모달 패턴을 통한 풍부한 신호 확보, (2) 경량화된 가중치 융합으로 파라미터 효율성, (3) ATC 기반 시간 일관성 정규화, (4) 공변량 일관성 손실을 통한 강인성 확보라는 네 축을 결합해, 기존 정적 OOD 탐지 방법이 갖는 시간·공변량 취약점을 근본적으로 해결한다.

시간에 따라 변하는 이상치 탐지와 도메인 일반화를 위한 시각‑언어 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기