관측값 중심 확률 통계의 제3의 길

논문은 먼저 전통적인 통계학이 가설 검정과 파라미터 추정을 핵심 절차로 삼아 왔으며, 이러한 절차가 실제 의사결정에 필요한 질문에 답하지 못한다는 문제점을 제기한다. 저자는 “제3의 방법”(Third Way)을 제안하며, 이는 관측값 Y 에 대한 불확실성을 직접적인 조건부 확률 Pr(Y∈y | X,D,M) 으로 표현하는 논리 확률(logical probability) 접근법이다. 여기서 X 는 새로운 관측값, D 는 과거 데이터, M 은 모델 혹은 전제이며, 모든 확률은 조건부라는 전제 하에 해석된다. 식(1) Pr(Y∈y | X,D,M) 은 베이지안 관점에서는 사후 예측분포와 동일하지만, 저자는 파라미터를 명시적으로 배제하고 “통합”함으로써 파라미터 불확실성을 관측값 불확실성으로 대체한다. 모델 M 이 연역적으로 도출될 경우(예: 주사위의 경우) 파라미터가 전혀 존재하지 않으며, 이때 예측은 단순히 1/6 과 같은 확률이 된다. 그러나 대부분의 실제 모델은 회귀, 의사결정 나무 등 경험적 가정에 기반하므로 M 은 “나는 회귀를 사용한다”는 의지에 의해 설정된다. 다음으로 저자는 중요도와 관련성을 새롭게 정의한다. 중요도(importance)는 특정 X 값이 변할 때 Pr(Y∈y) 의 변화량이 의사결정에 실질적인 영향을 미치는지를 판단하는 기준이며, 이는 확률 자체가 아니라 의사결정자의 목적에 따라 달라지는 실용적 가치이다. 반면 관련성(relevance)은 X 와 Y 사이에 인과적 연결이 존재한다는 전제 하에, X 가 Y 에 대한 확률을 변화시키는지를 의미한다. 즉, X 가 Y 에 전혀 영향을 주지 않으면 관련성이 없으며, 이는 확률적 개념으로 측정될 수 있다. 논문은 고등학교 GPA와 SAT 점수를 사용한 대학 1학년 GPA 예측 예시를 통해 이 개념을 실증한다. 회귀 모델 M 에 고등학교 GPA X_h 와 SAT X_s 를 포함하고, 목표값 y=3.8 에 대해 Pr(Y>3.8 | X_h=3.5, X_s=1160, D, M) = 0.038 을 계산한다. 고등학교 GPA를 제외하면 확률이 0.0075로 감소한다; 이 차이는 고등학교 GPA가 Y 에 대한 관련성을 가지고 있음을 보여준다. 그래프를 통해 X_h 가 변할 때 확률이 0에서 8 %까지 변하는 모습을 제시하고, 변화가 크면 중요하다고 판단한다. 반면 “주당 공부 시간” X_w 을 인위적으로 만든 데이터에 적용했을 때 확률 변화가 0.038에서 0.044 정도로 미미하여, 해당 변수는 관련성은 있지만 중요도는 낮다고 결론짓는다. 이러한 분석은 모두 조건부이며, 의사결정자가 어떤 y 값과 X 값을 관심 있게 보는가에 따라 결과가 달라진다. 따라서 모델의 “좋음(goodness)”은 절대적인 척도가 아니라, 특정 의사결정 상황에 대한 적합성으로 평가된다. 저자는 모델 검증을 필수 절차로 강조한다. 예측된 확률은 실제 관측과 비교해 검증되어야 하며, 검증 결과에 따라 모델 M 을 수정하거나 폐기한다. 검증 과정에 대한 구체적 방법론은 제시되지 않지만, 표와 그래프를 통해 예측값을 보고하고, 새로운 데이터가 들어올 때마다 업데이트하는 방식을 제안한다. 마지막으로 논문은 기존 통계학이 “다른 사람을 위한” 복잡한 절차와 p‑값, 베이지안 팩터 같은 마법 숫자에 의존한다는 비판을 제시한다. 제3의 방법은 이러한 절차를 없애고, 의사결정자가 직접 이해하고 활용할 수 있는 확률 서술을 목표로 한다. 그러나 실제 적용에서는 모델 전제 M 의 타당성 검토, 사전 가정의 명시, 검증 절차의 체계화 등 실무적 과제가 남아 있다.

관측값 중심 확률 통계의 제3의 길

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기