CHIWEI 가중 및 비가중 히스토그램 적합도 검정 프로그램
본 논문은 Fortran‑77 기반의 CHIWEI 코드를 소개한다. 가중치가 정규화된 히스토그램과 정규화되지 않은 히스토그램 모두에 대해 Pearson χ² 검정의 일반화를 적용하여 적합도 검정 통계량을 계산한다. 입력으로 기대 확률, 가중치 합계 및 가중치 제곱합을 받아 χ² 값과 자유도, p‑값을 출력한다.
저자: Nikolai Gagunashvili
본 논문은 가중치가 부여된 히스토그램과 부여되지 않은 히스토그램 모두에 적용 가능한 적합도 검정 도구인 CHIWEI 프로그램을 소개한다. 히스토그램은 연속 확률밀도함수 p(x)를 구간별로 적분해 얻은 확률 p_i와 관측 빈도 n_i를 기반으로 구성된다. 전통적인 Pearson χ² 검정은 관측 빈도와 기대 빈도 np_i0 사이의 차이를 제곱하여 기대 빈도로 나눈 값을 구간 전체에 합산함으로써 검정 통계량 X²를 산출한다. 이때 자유도는 구간 수 m에서 제약 조건(전체 확률 합이 1) 하나를 뺀 m−1이 된다.
가중 히스토그램을 다루기 위해서는 사건마다 가중치 w(x)=p(x)/g(x) 를 정의한다. 여기서 g(x)는 시뮬레이션이나 실험에서 실제로 샘플링된 분포이며, p(x)와 g(x)가 동일하면 w(x)=1이 되어 비가중 히스토그램과 동일한 형태가 된다. 각 구간 i에 대한 가중치 합 W_i와 가중치 제곱합 W_i²를 구하고, 전체 사건 수 N을 사용해 정규화된 가중치 히스토그램의 추정 확률 ˆp_i=W_i/N을 얻는다. 이 추정량은 무편향이며, 기대값 p_i와 동일한 평균을 가진다.
논문은 이러한 정규화된 가중치 히스토그램에 대해 χ² 검정 통계량을 다음과 같이 일반화한다.
X²_norm = Σ_i (W_i − N p_i0)² / (N p_i0)
이 통계량은 H0(모델이 데이터와 일치) 가정 하에 자유도 m−1을 갖는 χ² 분포에 근사한다. 반면, 가중치가 정규화되지 않은 경우(예: 가중치에 상수 factor c가 곱해진 경우)에는 자유도가 하나 더 감소하여 m−2가 된다. 이는 전체 가중치 규모가 추가적인 자유도를 소모하기 때문이다.
프로그램 구현은 Fortran‑77로 작성되었으며, 외부 라이브러리 의존성을 최소화하기 위해 CERNLIB의 PROB(G100) 함수를 이용해 χ² 분포의 누적 확률(p‑값)을 계산한다. 인터페이스는 CALL CHIWEI(P,W1,W2,N,NCHA,MODE,STAT,NDF,IFAIL) 형태이며, 입력 파라미터는 다음과 같다.
- P: 기대 확률 p_i0 배열 (실험 설계 혹은 이론 모델에 의해 정의)
- W1: 각 구간의 가중치 합 W_i 배열
- W2: 각 구간의 가중치 제곱합 W_i² 배열
- N: 전체 사건 수 (가중치가 정규화된 경우 N은 실제 관측 수와 동일)
- NCHA: 구간 수 m
- MODE: 1이면 정규화된 가중치, 2이면 비정규화된 가중치 선택
출력은 STAT(χ² 통계량), NDF(자유도), IFAIL(계산 성공 여부)이다. IFAIL이 0이면 정상 계산, 양수이면 입력 오류 혹은 수치적 문제를 의미한다.
논문은 두 가지 가중 함수 g(x)를 사용한 실험적 검증을 수행한다. 첫 번째는 g₁(x)=p(x) 로, 이 경우 가중치가 모두 1이 되며 전통적인 χ² 검정과 동일한 결과를 얻는다. 두 번째는 g₂(x)∝2/(x−9)²+1+2/(x−15)²+1 로, 이는 원래 분포 p(x)와 형태가 유사하지만 피크 위치와 폭이 다르다. 이 경우 가중치 w(x)=p(x)/g₂(x) 가 비정규화된 형태로 적용된다.
시뮬레이션은 5구간 히스토그램을 1000번 반복 생성하고, 각각 정규화된 가중치와 비정규화된 가중치 경우에 대해 χ²와 p‑값을 계산한다. 결과는 다음과 같다.
- 테스트 1 (정규화된 가중치, W2=W1): STAT=4.5291, p=0.3391, 자유도 4
- 테스트 2 (정규화된 가중치, 가중치 제곱합이 다름): STAT=2.3380, p=0.6738, 자유도 4
- 테스트 3 (비정규화된 가중치): STAT=2.2398, p=0.5241, 자유도 3
모든 경우에서 기대 빈도가 충분히 커서(각 구간 기대 빈도 >1, 20% 이하 구간이 5 미만) χ² 근사가 타당함을 확인한다. 또한, 비정규화된 가중치에서는 자유도가 하나 감소함을 검증한다.
프로그램의 제한 사항으로는 기대 빈도가 매우 작을 경우(특히 20% 이상의 구간이 기대 빈도 <5) 검정이 부적절하다는 점을 강조한다. 이는 전통적인 χ² 검정에서 경험적으로 알려진 제한과 동일하다.
결론적으로 CHIWEI는 가중 히스토그램에 대한 적합도 검정을 손쉽게 수행할 수 있는 도구이며, Fortran‑77 기반으로 구현돼 기존 Monte Carlo 시뮬레이션 파이프라인에 쉽게 통합될 수 있다. 가중치가 정규화된 경우와 정규화되지 않은 경우를 모두 지원함으로써 다양한 실험 및 시뮬레이션 상황에 적용 가능하다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기