마코프 증가량의 사각형 스캔 확률을 엄밀히 계산하는 방법
본 논문은 마코프 증가량(Markov increment) 구조를 이용해 사각형 스캔 확률(rectangle scan probability)을 정확한 상·하한으로 계산하는 알고리즘을 제시한다. 알고리즘은 IEEE‑754 표준의 부동소수점 연산을 활용해 구간 연산을 수행하고, 다항분포와 다변량 초기하분포 등 주요 사례에 적용 가능함을 보인다. 구현은 R 패키지로 제공되며, 실험을 통해 상·하한의 차이가 매우 작아 실용적인 정확도를 확보함을 입증한다…
저자: Jannis Dimitriadis
이 논문은 “ℓ개의 연속 박스에 포함된 사건 수가 k를 초과하는 경우가 존재하는가?”라는 전형적인 스캔 통계 문제를 다루며, 이를 확률론적으로는 다항분포 M_{n,p}의 누적합이 특정 구간을 넘는 사건의 여집합을 계산하는 것으로 전환한다. 직접적인 전수 합산은 지원 집합 D={x∈ℕ^d : Σ_i x_i=n}의 크기가 (n+d−1 choose d−1) 로 급격히 증가해 실용적이지 않다.
저자는 N∼M_{n,p} 를 마코프 증가량 Y=(Y_1,…,Y_d) 로 보는 관점을 채택한다. 여기서 Y_k는 k번째 박스에 들어간 사건 수이며, 누적합 S_k=Σ_{i=1}^k Y_i는 마코프 체인 (S_1,…,S_d) 를 형성한다. 이 구조는 “Y_1∈A_1, …, Y_d∈A_d” 형태의 다중 사건을 동적 프로그래밍으로 계산할 수 있는 기반을 제공한다.
섹션 2에서는 정리 2.1을 통해 p(k,x)=P(X_k=x, Y_1∈A_1,…,Y_k∈A_k) 가 재귀식
p(k,x)=∑_{y∈A_k} P(X_k=x | X_{k-1}=x·y^{-1})·p(k-1, x·y^{-1})
을 만족함을 증명한다. 여기서 (X,·)는 군이며, f_k(x_{k-1},x_k)=x_{k-1}^{-1}·x_k 로 정의된 전단사 함수를 이용한다. 이 식은 유한 집합 A_k 가 주어지면 전형적인 DP 테이블을 채우는 알고리즘으로 변환된다.
섹션 3에서는 사각형 스캔 확률 q = P(Y_1+…+Y_ℓ∈A_1, …, Y_{d-ℓ+1}+…+Y_d∈A_{d-ℓ+1}) 를 다루기 위해, 연속 ℓ개의 Y값을 하나의 벡터 V_k=(Y_k,…,Y_{k+ℓ-1}) 로 묶어 새로운 마코프 증가량 V 를 만든다. 레마 3.1에 의해 (W_k)_{k=1}^{d-ℓ+1} = (S_k,…,S_{k+ℓ-1}) 가 ℓ‑차원 마코프 체인이 되며, 전이 확률은 기존 체인의 전이와 동일하게 계산된다. 따라서 q는 V_k∈B_k (B_k는 ℓ합이 A_k에 속하는 ℓ‑튜플 집합) 로 표현된다. B_k가 무한할 경우, 실제 계산을 위해 유한 집합 M_k⊂B_k 를 찾아 P(V∈B)=P(V∈M) 를 보장한다. 특히 X=ℤ, + 연산인 경우 M_k는 { (y_1,…,y_ℓ)∈ℕ^ℓ : Σ_i y_i≤k } 로 정의되어 유한함을 확인한다.
알고리즘 A는 다음 단계로 구성된다. (1) 초기화: 모든 x∈A_1에 대해 p(1,x)=P(X_1=x). (2) 반복: k=2…d에 대해 모든 x∈A_1·…·A_k에 대해 재귀식 (1)을 적용해 p(k,x) 를 계산. (3) 최종 합산: Σ_{x∈A_1·…·A_d} p(d,x) 로 목표 확률을 얻는다. 이 과정은 오직 덧셈·곱셈만 사용하므로 IEEE‑754 표준의 부동소수점 연산 특성을 직접 활용할 수 있다.
섹션 5에서는 IEEE‑754 부동소수점 연산의 라운딩 특성을 이용해 상·하한을 동시에 구하는 방법을 제시한다. “라운딩 업(rounded‑up)” 모드에서는 모든 연산 결과를 실제 실수보다 크거나 같은 최소 IEEE‑Double 값으로 반올림하므로, 양수 연산만 포함된 경우 결과는 정확한 확률의 상한이 된다. 반대로 “라운딩 다운” 모드에서는 하한을 얻는다. 레마 5.1은 구간 연산의 단조성을 이용해 전체 오류를 각 단계별 상·하한의 곱으로 간단히 추정한다.
정밀도 분석에서는 IEEE‑Double(52비트 가수, 11비트 지수)에서 가능한 최소 양수 2^{-1074}≈5·10^{-324}와 1−2^{-53}≈1−10^{-16} 사이의 확률을 다룰 때 상대오차가 최대 1/(2^{53}+1)≈1.1·10^{-16} 이하임을 보인다. 이는 일반적인 통계 검정에서 요구되는 10^{-7} 수준보다 훨씬 정밀하다. 또한, 절대오차는 구간 길이의 절반인 (b−a)/2 로 간단히 계산된다.
섹션 6에서는 R 패키지 구현을 소개한다. C 레이어에서 IEEE‑754 연산을 직접 호출해 라운딩 모드를 전환하고, 알고리즘 A를 구현한다. 다항분포와 다변량 초기하분포에 대한 전이 확률을 사전 계산해 DP 테이블에 저장한다. 결과값이 1을 초과하면 1로 강제 클리핑한다.
실험 결과(섹션 6.1)에서는 n=500, d=365, ℓ=3, k=15인 경우 상·하한 차이가 10^{-7} 이하이며, 전체 계산 시간이 0.8초 수준임을 보고한다. 동일 조건에서 전수 합산 방식은 수시간에서 수일이 걸린다. 표 3에서는 다양한 k값에 대한 상·하한 구간을 16진수와 10진수 형태로 제시하고, 절대·상대 오차를 정량화한다.
결론적으로, 마코프 증가량이라는 일반적인 구조를 이용해 사각형 스캔 확률을 정확한 구간 형태로 빠르게 계산할 수 있는 알고리즘을 제시했으며, IEEE‑754 부동소수점 연산의 라운딩 특성을 활용한 오류 관리 기법이 핵심적인 기여이다. 이 방법은 다항분포, 다변량 초기하분포 등 다양한 확률 모델에 적용 가능하고, R을 통한 손쉬운 구현으로 실무 통계 분석에 바로 활용될 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기