차별을 분해하다 인공지능 신용결정의 인과 중재 분석

본 논문은 신용평가 AI에서 인종·성별 차별을 직접 효과와 구조적 불평등을 매개로 하는 간접 효과로 구분한다. 순차적 무관성 가정이 깨지는 치료‑유도 교란 상황에서도 수정된 순차적 무관성(MSI) 하에 인터벤셔널 직접·간접 효과(IDE/IIE)를 식별하고, 단조성 가정 하에 자연 직접·간접 효과(NDE/NIE)의 보수적 경계를 제시한다. AIPW 기반 이중강건 추정기를 제안하고, E‑value 민감도 분석을 추가한다. 뉴욕주 2022년 HMDA…

저자: Duraimurugan Rajamanickam

차별을 분해하다 인공지능 신용결정의 인과 중재 분석
본 논문은 인공지능 기반 신용결정 시스템에서 발생하는 인종·성별 차별을 두 가지 인과적 메커니즘으로 분리하고, 각각을 정량화하는 방법론을 제시한다. 서론에서는 현재 금융기관이 AI 모델을 활용해 대출 심사를 자동화하면서, 차별적 결과가 나타날 경우 그 원인을 정확히 파악하기 어려운 현실을 지적한다. 기존의 통계적 공정성 지표와 SHAP 같은 사후 해석 도구는 보호 속성(A)과 결과(Y) 사이의 연관성만을 보여줄 뿐, A→Y 직접 경로와 A→M→Y 간접 경로를 구분하지 못한다. 따라서 정책 입안자는 “직접 차별”에 대한 모델 제재와 “구조적 불평등”에 대한 사회적 개입 중 어느 쪽에 자원을 투입해야 할지 판단하기 어렵다. 이를 해결하기 위해 저자는 인과 그래프(DAG)를 명시하고, 보호 속성(A), 전처리 변수(W), 재무 중재변수(M), 미측정 교란(U), 그리고 최종 신용결정(Y)로 구성된 5‑변수 모델을 제시한다. 핵심은 U가 M과 Y 모두에 영향을 미쳐 치료‑유도 교란을 만든다는 점이다. 이 구조에서는 전통적인 순차적 무관성(SI) 가정이 깨져 자연 직접 효과(NDE)와 자연 간접 효과(NIE)를 식별할 수 없게 된다. 이에 저자는 수정된 순차적 무관성(MSI)이라는 약한 가정을 도입한다. MSI는 (1) A와 W만으로 A→Y 경로를 차단, (2) A와 W만으로 A→M 경로를 차단, (3) A가 W에 대해 확률적으로 존재한다는 조건을 포함한다. 이 가정 하에서는 M의 조건부 분포 F(M|A,W)와 결과 회귀 µ(A,M,W)를 각각 관측 데이터로부터 직접 추정할 수 있다. 정의 3.3에서 제시된 인터벤셔널 직접 효과(IDE)와 인터벤셔널 간접 효과(IIE)는 각각 다음과 같이 계산된다. IDE는 두 처리군 모두에서 M을 비보호군(A=0)의 조건부 분포 G₀에서 샘플링해, A가 Y에 미치는 직접적인 영향만을 측정한다. IIE는 A를 보호군(A=1)으로 고정하고, M을 보호군과 비보호군 각각의 분포(G₁, G₀)에서 샘플링해 두 분포 차이가 Y에 미치는 영향을 측정한다. 이러한 정의는 M→Y 경로에 존재하는 미측정 교란을 허용하면서도 효과를 식별 가능하게 만든다. 단조성 간접 치료 반응 가정(Assumption 3.2)을 추가하면, IDE는 NDE의 하한, IIE는 NIE의 상한이 된다. 즉, 자연 효과가 직접 식별 불가능하더라도 인터벤셔널 효과를 통해 보수적인 범위 내에서 차별 정도를 추정할 수 있다. 추정 방법론에서는 AIPW(augmented inverse probability weighting) 추정기를 설계한다. µ(a,m,w)는 로지스틱 회귀, 랜덤 포레스트, 혹은 딥러닝 등 유연한 모델로 추정하고, F(m|a,w)는 커널 밀도 추정 혹은 회귀 트리를 이용한다. 교차‑피팅을 통해 nuisance 파라미터의 과적합을 방지하고, 이중 강건성을 확보한다. 이 추정기는 반경험적 효율성 한계에 도달함을 정리 4.1에서 증명한다. 민감도 분석에서는 E‑value를 도입해 직접 경로에 남아 있는 미측정 교란이 IDE를 얼마나 크게 왜곡할 수 있는지를 정량화한다. E‑value가 클수록 관찰된 IDE가 교란에 의해 설명되기 어렵다는 의미이며, 정책 입안자는 이를 통해 결과의 신뢰성을 판단할 수 있다. 실증 분석에서는 뉴욕주 2022년 HMDA 데이터(총 89 465건)를 사용한다. 보호 속성은 흑인 신청자(A=1)이며, 재무 중재변수는 부채‑소득 비율(DTI), 대출‑가치 비율(LTV), 소득 및 신용 점수 사분위 등이다. 전체 인종 차별은 7.9%p(흑인 신청자 거절률이 비흑인 대비 7.9%p 높음)로 측정된다. IDE는 1.8%p, IIE는 6.1%p로 추정돼, IIE가 전체 차별의 약 77%를 차지한다는 결과가 도출된다. 이는 SHAP 분석에서도 DTI·LTV가 가장 큰 기여를 하는 것으로 나타난 점과 일치한다. 남은 23%는 직접 차별의 하한으로, 이는 모델이 보호 속성을 직접적으로 활용하거나, 미측정 교란이 존재함을 시사한다. 논문은 이러한 결과를 바탕으로 규제적·실무적 함의를 제시한다. IDE는 ECOA(동등신용기회법)의 ‘불공정 대우’(disparate treatment)에 해당하므로 모델 설계 단계에서 차별 민감도 제어, 변수 제거, 혹은 공정성 제약을 적용해야 한다. 반면 IIE는 구조적 불평등에 기인한 ‘불공정 영향’(disparate impact)으로, 정책 차원에서는 주택·소득 재분배, 신용 교육, 지역사회 투자 등 근본적인 사회적 개입이 필요하다. 또한 EU AI Act와 CFPB 가이드라인이 요구하는 ‘인과적 차별 메커니즘 문서화’를 충족시키기 위해, 제안된 CausalFair 패키지를 활용해 자동화된 보고서를 생성할 수 있다. CausalFair는 DAG 정의, MSI 기반 식별, AIPW 추정, 교차‑피팅, E‑value 민감도 분석, 시각화까지 전 과정을 파이썬 라이브러리 형태로 제공한다. 경량화된 설계와 상세 문서 덕분에 데이터 과학 인프라가 제한된 지역사회 은행이나 신용조합에서도 손쉽게 적용 가능하도록 설계되었다. 결론에서는 연구의 한계(예: 단일 주 데이터, 이진 보호 속성, 선형 가정 등)와 향후 연구 방향(다중 중재변수, 시간적 동태, 비선형 경로 효과, 정책 시뮬레이션) 등을 논의하며 마무리한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기