그래프 OOD 일반화를 위한 인과‑가이드 표현학습
본 논문은 그래프 신경망(GNN)이 분포 변동 상황에서 불안정한 상호정보(MI)를 학습하는 문제를 인과 그래프와 백도어 조정을 통해 분석하고, 인과‑가이드 표현학습(CGRL) 프레임워크를 제안한다. CGRL은 노드 수준 인과 불변성을 동적으로 가중치 조정하고, 에너지 기반 모델로 그래프 사후분포를 재구성한다. 또한 원래 손실을 동일 차수의 비대칭 손실로 대체하는 손실 교체 전략을 도입한다. 이론적 하한을 도출하고, 다양한 OOD 벤치마크에서 기…
저자: Bowen Lu, Liangqiang Yang, Teng Li
**1. 서론 및 문제 정의**
그래프 신경망(GNN)은 노드 특성과 구조 정보를 통합해 뛰어난 성능을 보이지만, 훈련‑테스트 분포가 다를 때(Out‑of‑Distribution, OOD) 성능이 급격히 저하된다. 저자들은 이러한 현상이 GNN이 훈련 데이터의 스퓨리어스 상관관계에 과도하게 의존해 예측 표현 \(H_c\)와 라벨 \(Y\) 사이의 상호정보(MI)가 불안정하게 변동한다는 실험적 증거를 제시한다(Figure 1).
**2. 인과 그래프와 백도어 조정**
문제의 근본 원인을 인과 관점에서 분석한다. 8개의 변수와 그 인과 관계를 포함한 구조적 인과 모델(SCM)을 구성하고, 주요 백도어 경로를 식별한다. 특히 \(H_{inter}\leftarrow H_c\rightarrow H_{intra}\rightarrow Y\)와 \(H_c\leftarrow A\leftarrow G\leftarrow E\rightarrow Y\)가 핵심 방해 요인이다. 이를 차단하기 위해 do‑calculus와 백도어 조정을 적용, \(P(Y\mid do(H_c))\)를 직접 계산할 수 있는 식(1)을 도출한다.
**3. 이론적 하한**
직접 최적화가 어려운 식(1)을 변분 추정으로 변환한다. Posterior 근사 \(Q_\phi\)를 도입하고, KL 발산을 포함한 변분 하한(3)을 제시한다. 이 하한은 세 개의 KL 항(그래프, intra‑class, inter‑class)과 기대 로그우도 항으로 구성돼, 모델 파라미터 \(\Theta\)와 근사 파라미터 \(\phi\)를 동시에 업데이트할 수 있게 만든다.
**4. CGRL 프레임워크**
CGRL은 두 주요 모듈로 구성된다.
- **재가중치 표현 학습(RRL)**: 첫 번째 GNN 레이어의 출력 \(Z^{(1)}\)를 초기 \(H_c^{(0)}\)로 사용하고, 이후 레이어마다 소프트맥스 기반 가중치 행렬 \(H_r\)를 계산해 각 노드 임베딩에 동적으로 가중치를 부여한다. 이는 GLIND 아이디어를 확장해 인과‑불변성을 강화한다.
- **에너지 기반 재구성**: 그래프와 예측 표현 사이에 에너지 함수 \(E_\theta(G_s, H_c)\)를 정의하고, \(\exp(-E_\theta)\)를 정규화해 사후 확률 \(P_\theta(G_s\mid H_c)\)를 추정한다. Gumbel‑trick을 이용해 미분 가능한 샘플링을 수행하고, 재구성 손실 \(\mathcal{L}_{rec}\)를 계산한다.
**5. 손실 교체 전략**
전통적인 교차 엔트로피 손실 대신, 동일 차수의 비대칭 손실 \(\mathcal{L}_{intra}\)와 \(\mathcal{L}_{inter}\)를 도입한다. \(\mathcal{L}_{intra}\)는 intra‑class 클러스터링을 촉진하고, \(\mathcal{L}_{inter}\)는 inter‑class 분리를 강화한다. 전체 목표 함수는
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기