모델 선택과 모델 비판: ABC 오류와 베이지안 접근의 재고
본 논문은 Ratmann et al. (2009)의 ABC 기반 모델 비판 방법을 비판적으로 검토한다. 저자는 오류 변수 ε 에 대한 사전 설정, 모델 검증 방식, 그리고 오류 해석에 대한 근본적인 문제점을 제시하며, 기존 베이지안 모델 선택(예: 증거, 베이즈 팩터)과의 관계를 재조명한다.
저자: Christian P. Robert, Kerrie L. Mengersen, Carla Chen
본 논문은 Ratmann et al. (2009)이 제안한 “모델 비판 기반 ABC” 접근법을 상세히 검토하고, 그 방법론적·통계적 한계를 다각도로 비판한다. Ratmann et al.은 ABC 알고리즘에서 발생하는 근사오차 ε 를 새로운 파라미터로 간주하고, 이에 대한 사전 π(ε) 를 설정한 뒤, 결합 사후분포 π(θ,ε|x₀) 를 추정한다. 이때 ε 는 관측 데이터 x₀와 시뮬레이션 데이터 x 사이의 거리 ρ(S(x),S(x₀)) 로 정의되며, 기존 ABC에서 사용되는 허용 오차 δ 와 유사하지만, 사용자는 이를 “추정 가능한 파라미터”로 다루게 된다.
논문은 먼저 이 아이디어가 “인식의 전환”이라고는 하지만 실제 알고리즘 자체는 변함이 없으며, 목표는 여전히 θ 의 사후분포를 얻는 것이라고 지적한다. 이어서 ε 의 분포 ξₓ₀,θ(ε) 가 실제로는 f(x|θ) 에서 ρ 를 통해 투영된 확률분포임을 명시하고, 포아송 모델을 예로 들어 ε = x−x₀ 가 정수값을 갖는 특성을 보인다. 이때 적절한 사전 π(ε) 는 1/(1+ε²) 와 같은 형태가 제안되지만, Ratmann et al.에서는 사전 선택이 필수적이라고 보지 않는다.
다음으로 저자는 ε 가 데이터에 의해 충분히 식별될 수 있는가에 대한 가정을 비판한다. 위치 모형 x₀∼f(x−θ) 에서 ε=x−x₀ 를 선택하면, 사전 π(θ) 가 넓게 퍼져 있을 경우 π(ε|x₀) 는 사전 π(ε)와 거의 동일해져, 관측 데이터가 ε 에 대한 정보를 제공하지 않는다. 반대로 π(ε) 가 매우 집중돼 있으면 θ 의 사후분포에 큰 영향을 주지 못한다. 이와 유사하게 이항 모델에서도 ε 에 대한 사후가 사전과 동일하게 되며, 단일 통계량만을 사용했을 때는 오류 변수에 대한 정보가 전혀 추출되지 않음을 보여준다.
모델 검증 측면에서는 Ratmann et al.이 m(x) (마진 가능도)를 사용해 모델 적합도를 평가하는 방식을 비판한다. m(x) 는 사전 의존성이 강하고, 관측 데이터 x₀ 를 한 번만 사용한다는 장점에도 불구하고, 사전‑우도 결합이 모델 불충분성을 충분히 드러내지 못한다. 대신 p(x|x₀) (예측분포)를 이용하면 관측 통계와 시뮬레이션 통계의 직접 비교가 가능해져, 베이즈 적합도 검정(Verdinelli & Wasserman, 1998)과 유사한 형태의 모델 평가가 가능하다.
증거(evidence)와 논문에서 정의한 p‑value 의 차이도 구체적으로 분석한다. 포아송 모델에 대해 θ∼Exp(1) 을 사전으로 잡으면, 증거는 2^{−x₀−1} 로 단조 감소한다. 반면 Ratmann et al.이 제시한 p‑value 는 π(ε|x₀) 에 기반해 ∞ ∑_{k=−x₀} π(ε=k|x₀) I{π(ε=k|x₀)≤π(ε=0|x₀)} 와 같은 형태이며, 수치적으로는 비단조적이고 급격히 감소하지 않는다. 이는 p‑value 가 모델 복잡도와 사전 선택에 과도하게 민감함을 의미한다.
또한 ε 를 “가능도” ξₓ₀,θ(ε)와 사전 π(ε) 의 곱으로 정의하는 것이 확률론적 정당성을 결여한다는 점을 강조한다. 변수 변환 시 제곱 Jacobian이 등장해 밀도 형태가 변형되므로, ε 를 실제 파라미터처럼 다루는 것은 통계적 일관성을 해친다. 비모수적 추정법(
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기