신뢰구간 커버리지는 덮는다 혹은 안덮는다? 사후 확률의 모델 기반 해석

본 논문은 전통적인 “신뢰구간은 1‑α 의 장기 커버리지를 보장하지만, 개별 구간이 파라미터를 포함했는지는 사후에 확률로 말할 수 없다”는 해석에 반론을 제시한다. 저자는 사고실험과 무한 시퀀스 모델을 이용해 사후 커버리지 확률을 예측 확률로 재해석하고, 언제 중간 확률을 허용할 수 있는지 규범적 기준을 제시한다.

저자: Scott Lee

이 논문은 Neyman이 제시한 신뢰구간(CI)의 전통적 해석—즉 “1‑α 의 장기 커버리지를 보장하지만, 개별 구간이 파라미터를 포함했는지는 사후에 확률로 말할 수 없다”—에 대한 두 차례의 반론을 전개한다. 첫 번째는 비공식적인 사고실험을 통해 동일한 확률 모델이 전향적(앞으로 일어날 사건에 대한)과 후향적(이미 일어났지만 관측되지 않은) 확률을 동시에 제공할 수 있음을 보여준다. 첫 번째 사고실험은 의료 진단 상황을 다룬다. 급속 항원 검사의 민감도와 특이도를 이용해 환자가 실제로 독감에 걸렸을 확률을 81%로 계산한다. 그러나 “이미 검사가 시행됐고, 환자와 질병 상태는 고정돼 있다”는 빈도주의적 관점에서는 이 확률이 0 혹은 1로 퇴화한다는 논리적 모순을 지적한다. 실제 임상에서는 81%라는 예측값이 치료 결정을 내리는 데 필수적이며, 이는 사후 확률을 완전히 배제하는 해석이 실용성을 크게 저해함을 보여준다. 두 번째 사고실험은 고양이 간식 사례이다. 간식의 맛이 사전에 정해져 있지만, 주인은 간식이 어떤 맛인지 모른다. 전체 박스에서 해산물 맛이 75%이고, 고양이가 맛에 따라 울음과 잠을 자는 확률을 모델링한다. 여기서 전체적인 “고양이가 잠을 잘 확률”은 80%라는 전향적 예측값으로 계산된다. 반면, 특정 간식이 해산물 맛인지 여부를 조건부로 묻는다면 확률은 0·82 혹은 0·74와 같이 퇴화된 형태가 된다. 저자는 두 확률이 동일한 확률 구조에서 파생된 것이며, 후향적 확률을 배제하는 것은 모델의 일관성을 훼손한다는 점을 강조한다. 세 번째 사고실험은 초콜릿 트러플 생산 라인이다. 여러 기계가 결함을 가질 확률을 고려해 현재 트러플이 아직 검사되지 않은 상태에서 다음 트러플이 올바르게 채워질 확률을 설계 수준에서 0.9045로 계산한다. 실제로 현재 트러플이 채워졌는지 여부를 조건부로 고려하면 0.905 혹은 0.9와 같은 약간 다른 값이 나오지만, 이는 동일한 확률 모델의 다른 조건화 결과이다. 수학적 정식화에서는 무한 시퀀스 \(\{I_n\}\) (각 시도에서 파라미터를 포함했는지를 나타내는 0/1 지표)를 도입한다. 설계 수준의 커버리지는 \(\lim_{N\to\infty}\frac{1}{N}\sum_{n=1}^N I_n = 1-\alpha\) 라는 확률적 진술이며, 이는 빈도주의적 장기 오류율을 의미한다. 반면, 개별 실현에 대한 조건부 확률 \(P(I_n=1\mid X_n)=I_n\) 은 퇴화된 0·1 값을 갖지만, 이는 동일 모델을 다른 조건화 수준에서 바라본 결과일 뿐이다. 따라서 “사후 확률은 의미가 없다”는 주장은 조건부 확률이 퇴화된다는 사실을 과도하게 일반화한 것이다. 이러한 분석을 바탕으로 저자는 신뢰구간을 “예측 확률”이라는 새로운 관점으로 재해석한다. 즉, 특정 실현에 대해 “다음에 이 구간이 파라미터를 포함할 확률”을 제공하는 모델로 보는 것이다. 이를 위해 중간 확률을 허용할지 여부를 판단하는 규범적 규칙을 제시한다. 첫째, 모델이 충분히 검증되고 반복 실험에서 동일한 커버리지 특성을 보일 때, 사후 확률을 제시해도 빈도주의적 일관성을 해치지 않는다. 둘째, 사후 확률이 실제 의사결정에 가치를 제공하고, 해당 확률이 설계 수준의 오류율과 일치하거나 보수적으로 조정될 때만 사용을 권장한다. 결론적으로, 논문은 전통적 빈도주의 해석과 베이지안적 직관 사이의 간극을 메우는 교량 역할을 한다. 신뢰구간을 단순히 장기 오류율을 보장하는 도구가 아니라, 개별 실현에 대한 예측을 제공하는 확률적 예보 모델로 보는 새로운 프레임워크를 제시함으로써, 사후 커버리지 확률을 합리적으로 활용할 수 있는 이론적 근거와 실용적 지침을 제공한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기