공정성을 고려한 그래프 응축 프레임워크 FairGC
FairGC는 그래프 응축 과정에 공정성 제약을 직접 삽입한 새로운 방법이다. 레이블과 민감 속성의 공동 분포를 보존하는 분포‑보존 응축 모듈, 라플라시안 고유값을 활용한 스펙트럼 인코딩 모듈, 그리고 라벨 스무딩 커리큘럼을 포함한 공정성‑강화 신경망 아키텍처를 결합한다. 네 개의 실제 데이터셋에서 기존 응축 기법 대비 정확도는 유지하면서 통계적 평등(ΔSP)과 동등 기회(ΔEO) 지표를 크게 개선한다.
저자: Yihan Gao, Chenxi Huang, Wen Shi
본 논문은 그래프 신경망(GNN)의 확장성을 위해 대규모 그래프를 소규모 합성 그래프로 압축하는 그래프 응축(Graph Condensation, GC) 기술이 최근 주목받고 있음에도, 기존 방법들은 정확도 최적화에만 집중해 민감 속성(성별, 연령 등)과 레이블 사이의 편향을 무시한다는 근본적인 문제를 지적한다. 이러한 편향은 합성 그래프에 그대로 전이되거나 증폭되어, 신용 평가나 소셜 네트워크 추천 등 공정성이 요구되는 실제 응용에서 심각한 차별을 초래한다. 이를 해결하기 위해 저자들은 FairGC라는 새로운 프레임워크를 제안한다. FairGC는 세 단계로 구성된다.
1. **Distribution‑Preserving Condensation (DPC) 모듈**
- 원본 그래프 G=(V,E,X,y,s)에서 레이블 y와 민감 속성 s의 주변 분포 p_c와 q_a를 정확히 측정한다.
- 압축 비율 ρ에 따라 합성 노드 수 n_syn을 결정하고, 각 클래스와 민감 그룹에 대해 n_c,syn = n_syn·p_c, n_a,syn = n_syn·q_a 로 할당한다.
- 이렇게 함으로써 합성 레이블 ˜y와 민감 속성 ˜s가 원본과 동일한 분포를 갖게 하여, 응축 과정에서 편향이 전파되는 것을 사전에 차단한다.
- 특징 ˜X는 스트라티파이드 샘플링 후 Z‑score 정규화하고, 프록시 MLP g_ϕ를 이용해 교차 엔트로피 손실 L_cond를 최소화하면서 학습 가능한 파라미터로 최적화한다.
- 구조 재구성은 그래프 규모에 따라 k‑NN 기반 희소 연결(노드 수 >20k) 또는 밀집 연결을 선택적으로 적용해 메모리 효율성을 확보한다.
2. **Spectral Encoding 모듈**
- 합성 그래프의 정규화 라플라시안 L_syn을 계산하고, 상위 K개의 고유값 λ_i와 고유벡터 u_i를 추출한다.
- 고유값을 10,000을 기준으로 사인·코사인 함수를 이용해 연속적인 위치 임베딩 E(0)으로 변환한다(위치 인코딩 방식).
- 변환된 E(0)는 다중 헤드 셀프 어텐션(MHSA)과 레이어 정규화·피드포워드 네트워크(FFN)를 거쳐 정제된 스펙트럼 임베딩 E를 만든다.
- 최종적으로 E는 고유벡터 U와 내적하여 노드 차원 z_spec = Σ_i U_i·E_i 로 투영한다. 이 과정은 전역 토폴로지 정보를 미세 특징에 결합한다.
3. **Fairness‑Enhanced Neural Architecture**
- 초기 노드 특징 H(0)은 배치 정규화와 선형 변환 후 ReLU 활성화로 얻는다.
- Fairness‑aware Unified Layer(FULayer)를 도입해 H와 z_spec를 융합한다. 각 레이어는 Norm(Dropout(σ(W1·H_{l‑1}+W2·z_spec))) 형태로, 구조적·속성적 정보를 동시에 반영한다.
- 학습 초기 40 epoch 동안 라벨 스무딩(ε=0.1)을 적용해 ˜y_i = (1‑ε)·y_i + ε·C 형태의 부드러운 목표를 제공, 이후 표준 NLL 손실로 전환한다.
- 최적화는 AdamW와 코사인 학습률 스케줄러를 사용하고, 매 epoch마다 통계적 평등(ΔSP)과 동등 기회(ΔEO)를 모니터링해 공정성 기준을 만족하도록 조정한다.
**실험 설정 및 결과**
- 데이터셋: Credit(금융 거래 네트워크, 민감 속성=연령), Pokec‑z, Pokec‑n, AMiner‑L 등 네 개의 실제 그래프.
- 비교 대상: 기존 GC 기법(GCond, DosCond, SFGC, GCGP, GDCK, BiMSGC) 및 이들에 FairGNN을 결합한 변형.
- 평가 지표: 분류 정확도, ΔSP, ΔEO.
- 주요 결과: FairGC는 압축 비율 ρ=0.05~0.1에서 원본 정확도와 거의 동일한 수준을 유지하면서, ΔSP와 ΔEO를 평균 30%~45% 감소시켰다. 특히 민감 그룹 간 TPR 차이가 최소화돼 공정성 요구가 높은 신용 위험 예측에서 기존 방법 대비 편향이 크게 완화되었다. 또한, 라벨 스무딩과 스펙트럼 인코딩이 결합된 구조는 모델 수렴 속도를 가속화하고, 합성 그래프의 구조적 품질을 유지하는 데 기여했다.
**의의와 한계**
- FairGC는 그래프 압축 단계부터 공정성을 내재화함으로써, “압축 후 후처리” 방식이 갖는 한계를 극복한다.
- 분포‑보존과 스펙트럼 인코딩이라는 두 축을 통해 전역 구조와 민감 속성 간 상관관계를 동시에 관리한다.
- 현재는 이진 민감 속성(0/1)과 이진 레이블에 초점을 맞추었으며, 다중 클래스·다중 민감 속성에 대한 확장은 향후 연구 과제로 남는다.
- 또한, 고유값 개수 K와 라벨 스무딩 파라미터 ε에 대한 민감도 분석이 추가된다면 실제 적용 시 더 정교한 튜닝이 가능할 것이다.
결론적으로, FairGC는 그래프 응축과 공정성 보장을 동시에 달성하는 최초의 통합 프레임워크로, 대규모 그래프 학습이 요구되는 산업 현장에서 윤리적 책임을 다하면서도 효율적인 모델 구축을 가능하게 한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기