예측 기반 추론을 위한 표본 크기와 검정력 계산 가이드

본 논문은 현대 생명과학·의학 연구에서 라벨링 비용이 높은 상황에서, 머신러닝·AI 모델이 제공하는 고품질 예측값을 활용해 통계적 검정력과 표본 크기를 효율적으로 설계하는 방법을 제시한다. 서론에서는 라벨링이 비용·시간 면에서 제한적인 사례(단일 세포 전사체 마커 라벨링, 임상 시험의 결과 측정, 대규모 언어 모델 응답 평가 등)를 소개하고, 기존에 예측값을 직접 관측치로 사용하면 Type I 오류가 과대평가되는 문제점을 지적한다. 이를 해결하기 위해 Prediction‑Powered Inference(PPI)와 그 확장인 PPI++를 도입한다. PPI는 예측값의 평균과 라벨과 예측값의 차이 평균을 각각 별도로 추정해 무편향 추정량을 만든다. PPI++는 가중치 \(\lambda\) 를 도입해 두 평균의 결합을 최적화한다. 수학적 설정에서는 라벨이 있는 데이터 \(\{(X_i,Y_i)\}_{i=1}^n\)와 라벨이 없는 데이터 \(\{eX_j\}_{j=1}^N\)를 독립적으로 가정하고, 예측 함수 \(f\)가 두 집합에 동일하게 적용된다고 전제한다. 주요 통계량은 결과의 분산 \(\sigma_Y^2\), 예측값의 분산 \(\sigma_f^2\), 그리고 잔차 분산 \(\sigma_\varepsilon^2 = \sigma_Y^2 + \sigma_f^2 - 2\operatorname{Cov}(Y,f)\) 로 정의된다. 제1절에서는 단일 평균 검정에 대한 고전적 검정력 공식 \(\Phi\bigl(-z_{1-\alpha/2}+|\Delta|\sigma_Y/\sqrt{n}\bigr)+\Phi\bigl(-z_{1-\alpha/2}-|\Delta|\sigma_Y/\sqrt{n}\bigr)\) 를 재정리하고, PPI++의 추정량 \(\hat\theta_\lambda\) 의 asymptotic variance를 \(\sigma_Y^2/n + \lambda^2\sigma_f^2(1/N+1/n)-2\lambda\operatorname{Cov}(Y,f)/n\) 로 도출한다. 이 식을 \(\lambda\) 로 미분해 최소화하면 \(\lambda^\star = \operatorname{Cov}(Y,f)/\bigl((1+r)\sigma_f^2\bigr)\) 가 얻어지고, 최적 분산은 \(\sigma_Y^2(1-\rho_{Yf}^2)/n\) 로 간단히 표현된다. 여기서 \(\rho_{Yf}\) 는 결과와 예측 사이의 상관계수이며, \(\rho_{Yf}^2\) 가 바로 R²이다. 이 최적 분산을 Wald 검정에 대입하면 검정력 식이 기존과 동일한 형태를 갖지만, \(\sigma_Y^2/n\) 대신 \(\sigma_Y^2(1-\rho_{Yf}^2)/n\) 가 들어간다. 이를 역산하면 목표 검정력 \(1-\beta\) 와 유의수준 \(\alpha\) 에 대해 필요한 라벨링 샘플 수 \(n^\star\) 를 이차식 형태로 구할 수 있다(식 11). 특히 \(N\gg n\) 인 경우, \(\sigma_f^2/N\) 항이 무시되어 \(n^\star \approx (1-\rho_{Yf}^2) n_{\text{classical}}\) 가 된다. 즉, 예측 모델이 설명하는 변동 비율(R²) 만큼 라벨링 샘플이 절감된다는 직관적인 규칙이 도출된다. 제2절에서는 이 원리를 두 집단 평균 차이, 짝paired 디자인, 2×2 교차표(odds ratio, relative risk) 등 다양한 실험 설계에 확장한다. 두 집단 평균 차이에서는 각 그룹별 \(\rho_{Yf}\) 를 별도로 고려해 분산이 \(\sigma_{Y,A}^2(1-\rho_{A}^2)/n_A + \sigma_{Y,B}^2(1-\rho_{B}^2)/n_B\) 로 합산된다. 짝paired 디자인은 차분 변수 \(D=Y_A-Y_B\) 와 차분 예측 \(G=f_A-f_B\) 로 변환해 동일한 한표본 공식에 적용한다. 2×2 표에서는 이진 결과와 이진 예측에 대해 민감도·특이도·전반적 유병률을 이용해 \(\sigma_Y^2, \sigma_f^2, \operatorname{Cov}(Y,f)\) 를 계산하고, 이에 기반한 검정력 식을 제공한다. 제3절에서는 실제 연구자가 흔히 접하는 성능 지표(R², MSE, 정확도, 정밀도·재현율 등)를 어떻게 \(\rho_{Yf}^2\) 로 변환해 입력값으로 사용할 수 있는지를 설명한다. 연속형 경우는 보고된 R² 를 직접 사용하고, MSE만 제공될 경우 Cauchy–Schwarz 부등식을 이용해 보수적인 하한을 구한다. 이진 경우는 민감도·특이도와 유병률을 이용해 \(\sigma_Y^2, \sigma_f^2, \operatorname{Cov}(Y,f)\) 를 명시적으로 계산한다. 제4절에서는 제안된 공식들의 정확성을 Monte‑Carlo 시뮬레이션으로 검증한다. 다양한 R² 수준(0.1~0.9), 라벨링 비율 \(r=n/N\), 효과크기 \(\Delta\) 를 변형하며, 이론적 검정력과 시뮬레이션 기반 검정력이 거의 일치함을 확인한다. 또한, 예측 모델이 거의 무관할 때는 기존 고전적 검정력과 동일해지는 경계 조건도 확인한다. 제5절에서는 실제 적용 사례를 제시한다. (1) 단일 세포 전사체 데이터에서 사전 학습된 라벨 전이 모델을 사용해 라벨링 비용을 70% 절감, (2) 고혈압 임상시험에서 연령·임상 변수 기반 선형 회귀 모델을 활용해 라벨링 수를 55% 감소, (3) 피부 병변 이미지에서 딥러닝 기반 예측을 이용해 라벨링 수를 80% 절감하였다. 각 사례마다 R²가 0.5~0.9 사이였으며, 제안된 공식이 실제 라벨링 비용 절감과 검정력 유지에 정확히 부합함을 보였다. 마지막으로, 저자는 R 패키지 `pppower`와 웹 기반 계산기를 공개해 연구자가 손쉽게 라벨링 샘플 크기와 검정력을 계산하도록 지원한다. 전체적으로 이 논문은 예측 모델을 통계 추론에 통합하는 방법을 설계 단계까지 확장함으로써, 라벨링 비용이 제한적인 현대 생명과학 연구에서 효율적인 실험 설계와 자원 배분을 가능하게 하는 중요한 기여를 한다.

예측 기반 추론을 위한 표본 크기와 검정력 계산 가이드

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기