확률적 인과성 경계의 표본 크기 분석: 델타 방법 접근
본 논문은 실험·관찰 데이터를 결합해 얻는 인과 확률(특히 PNS, PN, PS)의 상한·하한을 추정할 때, 원하는 오차 범위를 만족하도록 필요한 표본 크기를 계산하는 일반적인 프레임워크를 제시한다. 핵심은 경계가 확률 벡터의 유한한 선형 결합의 최소·최대 형태로 표현될 수 있다는 점이며, 이를 다변량 델타 방법과 비스무스(비연속) 경우를 위한 방향성 델타 방법으로 근사한다. 이론적 결과를 시뮬레이션으로 검증해 기존보다 덜 보수적인 표본 크기 …
저자: Tianyuan Cheng, Ruirui Mao, Judea Pearl
본 논문은 인과 확률(Probabilities of Causation, PoC)인 필요성·충분성 확률(PNS), 필요성 확률(PN), 충분성 확률(PS)과 같은 양이 실험적(interventional) 데이터와 관찰적(observational) 데이터의 조합으로부터 직접 식별되지 않을 때, 그 상한·하한을 어떻게 추정하고, 원하는 정확도(마진 오차)를 만족하도록 표본 크기를 어떻게 설계할 것인가에 대한 체계적인 해법을 제시한다.
1. **배경 및 문제 정의**
- PoC는 의료, 법률, 마케팅 등 의사결정 상황에서 “어떤 조치가 결과를 일으켰는가”를 정량화하는 핵심 지표이다.
- 구조적 인과 모델(SCM) 하에서 PNS, PN, PS는 각각 반사실(counterfactual) 확률로 정의되지만, 일반적인 경우에는 직접 관측이 불가능해 상한·하한만 구할 수 있다.
- 기존 연구(Tian·Pearl 2000, Li·Pearl 2019 등)는 이러한 경계를 선형계획법(LP)으로 도출했으며, 공변량이나 추가 구조 정보를 이용해 경계를 좁히는 방법도 제시했다. 그러나 “얼마나 많은 실험·관찰 표본이 필요할까?”라는 표본 크기 설계 문제는 거의 다루어지지 않았다.
2. **경계의 일반적 형태**
- 저자들은 모든 기존 Sharp bound가 실험·관찰 확률들의 벡터 θ∈ℝ^d에 대한 유한한 선형 함수들의 최소·최대 형태로 표현될 수 있음을 Lemma 1을 통해 증명한다.
- 구체적으로, 상한 U_Q(θ)와 하한 L_Q(θ)는
\
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기