스마트 모델의 함정 탈피: 설명 기반 Clever Hans 탐지와 제거
본 논문은 대규모 이미지 데이터셋에서 모델이 학습하는 은연한 편향(‘Clever‑Hans’ 현상)을 XAI 기반 설명 방법으로 자동 탐지하고, 제안된 Class Artifact Compensation(ClArC) 기법으로 이를 효과적으로 억제하는 프레임워크를 제시한다.
저자: Christopher J. Anders, Le, er Weber
본 논문은 현대 컴퓨터 비전 모델이 대규모 벤치마크 데이터(예: ImageNet)에서 숨겨진 편향이나 아티팩트를 학습해 ‘Clever‑Hans’(CH) 현상을 보이는 문제를 다룬다. CH 현상은 모델이 실제 의미 있는 특징이 아닌, 데이터에 내재된 스푸리어스한 상관관계에 의존해 예측을 수행하는 상황을 의미한다. 이러한 현상은 모델의 일반화 능력을 저해하고, 불공정하거나 위험한 결정을 초래할 수 있다. 직접 데이터셋을 눈으로 검토하는 것은 규모가 방대해 현실적으로 불가능하므로, 모델 자체의 행동을 분석하는 것이 대안이 된다.
논문은 먼저 XAI 분야의 로컬 설명 방법(LRP, Grad‑CAM, Integrated Gradients 등)과 글로벌 설명 방법을 비교하고, 두 접근법이 각각 인간 편향과 스케일 문제에 취약함을 지적한다. 이를 보완하기 위해 최근 제안된 Spectral Relevance Analysis(SpRAy)를 확장한다. SpRAy는 로컬 설명을 벡터화한 뒤, 스펙트럼 클러스터링(특히 정규화된 라플라시안 행렬의 고유벡터를 이용)으로 유사한 설명 패턴을 자동으로 그룹화한다. 이 과정에서 특정 클래스에만 반복적으로 나타나는 비정상적인 클러스터가 ‘아티팩트’로 간주된다.
아티팩트 식별 단계(I)에서는 대규모 데이터에 대해 자동화된 SpRAy 파이프라인을 적용해, 예를 들어 ImageNet의 ‘horse’ 클래스가 물표시(watermark)와 강하게 연관된 설명을 생성한다는 사실을 발견한다. 이어서 단계(II)인 Artifact Model Estimation에서는 두 가지 경로를 제시한다. 첫 번째는 전문가 지식에 기반해 아티팩트의 시각적/텍스트적 특성을 명시적으로 모델링하는 방법이며, 두 번째는 데이터‑기반으로 CA‑Vs(클래스 대비 가중치)와 같은 통계적 모델을 학습해 아티팩트 신호를 추정한다.
핵심 기여는 단계(III)인 Class Artifact Compensation(ClArC)이다. 여기서는 두 가지 구현을 제안한다. ① P‑ClArC(Projective ClArC)은 아티팩트가 가장 강하게 표현되는 레이어에서 해당 신호를 선형 프로젝션하거나 마스크하여 이후 레이어로 전파되지 않게 한다. 이 방식은 사후(post‑hoc)로 적용 가능하며, 기존 가중치를 거의 변경하지 않으면서도 아티팩트 영향을 크게 감소시킨다. ② A‑ClArC(Augmentative ClArC)는 아티팩트 신호를 모든 클래스에 균등하게 주입해 학습 과정에서 모델이 아티팩트를 클래스 구분에 활용하는 정도를 약화시킨다. 즉, 모델이 아티팩트 대신 본래 의미 있는 특징을 학습하도록 강제한다. 두 방법 모두 기존 네트워크 구조에 최소한의 추가 레이어만 삽입하거나, 미세 조정(fine‑tuning)만 수행한다.
실험은 네 가지 데이터셋에 대해 수행되었다. (1) 컬러 MNIST에서는 색상 라벨이 아티팩트로 작용하는 상황을 인위적으로 만들고, ClArC 적용 후 색상 의존도가 85 % 감소했다. (2) ImageNet에서는 ‘horse’, ‘dog’, ‘bird’ 등 특정 클래스가 배경 텍스처와 연관된 설명을 보였으며, P‑ClArC 적용 후 해당 클래스의 설명 히트맵이 실제 동물 형태로 전환되었다. (3) Adience 얼굴 데이터에서는 조명과 배경이 연령 예측에 영향을 주는 아티팩트를 발견하고, A‑ClArC을 통해 연령 예측 정확도가 3 % 상승했다. (4) ISIC 2019 피부 병변 데이터에서는 특정 병변 이미지에 존재하는 촬영 장비 메타데이터가 모델에 과도히 활용되는 것을 완화했다. 정량적으로는 아티팩트 관련 설명 점수(예: 평균 LRP relevance)가 70 % 이상 감소했으며, 전체 분류 정확도는 대부분 0.5 % 이내로 유지되었다.
논문의 한계로는 (i) 아티팩트가 매우 희귀하거나 복합적인 경우 클러스터링 파라미터 설정이 민감하게 작용한다는 점, (ii) 사전 정의된 아티팩트가 없을 때 자동 탐지 정확도가 낮아질 수 있다는 점, (iii) 현재는 이미지 도메인에 초점을 맞추었으며, 텍스트나 시계열 데이터에 대한 확장은 추가 연구가 필요함을 언급한다.
결론적으로, 이 연구는 XAI와 스펙트럼 분석을 결합해 대규모 데이터에서 은밀한 CH 현상을 자동으로 탐지하고, 두 단계의 보정 메커니즘(P‑ClArC, A‑ClArC)을 통해 모델을 효과적으로 ‘정화’하는 실용적인 프레임워크를 제공한다. 이는 모델 신뢰성을 높이고, 편향된 데이터로 인한 사회적·윤리적 위험을 감소시키는 데 중요한 기여를 한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기