에르고딕 시계열을 위한 비모수 조건부 확률 추정법
본 논문은 정Stationary·ergodic 시계열에 대해, 과거 무한히 긴 정보를 사용하지 않고도 유한 길이의 과거 구간만으로 다음 관측값의 조건부 확률을 강일관적으로 추정할 수 있는 간단한 비모수 알고리즘을 제시한다. Ornstein의 유한 알파벳 경우와 Algoet의 폴리시 공간 일반화를 재구성하며, 추정량의 수렴을 마팅게일 차이와 토플리츠 보조정리를 이용해 증명한다. 또한 회귀, 패턴 인식, 온라인 예측 등 다양한 응용으로 확장한다.
저자: G. Morvai, S. Yakowitz, L. Gyorfi
본 논문은 정Stationary·ergodic 시계열 {X_n} 에 대해, 무한히 긴 과거 정보를 직접 사용하지 않고도 다음 관측값 X₀ 의 조건부 확률 분포를 강일관적으로 추정할 수 있는 새로운 비모수 방법을 제시한다. 기존 연구는 Ornstein(1978)가 유한 알파벳 경우에, Algoet(1992)가 폴리시 공간으로 일반화한 방법을 제시했지만, 그 구현과 증명이 복잡했다. 저자들은 보다 직관적이고 검증이 쉬운 알고리즘을 고안한다.
핵심 아이디어는 과거 시계열을 일정한 양자화 파티션 P_k 로 구분하고, 각 단계 k 에서 현재 시점(−1) 이전에 나타난 패턴 B(k) = (G_k(X_{-λ_{k-1}}),…,G_k(X_{-1})) 를 찾는 것이다. 여기서 G_k 는 파티션에 대응하는 양자화 함수이며, λ₀=1, τ_k 는 현재 시점에서 가장 최근에 B(k) 가 나타난 시점과 그 이전 마지막 발생 시점 사이의 거리, λ_k = τ_k+λ_{k-1} 로 정의된다. λ_k 는 실제로 관측된 데이터 길이를 의미한다.
그 후, 조건부 확률을 추정하기 위해 P_k(C)= (1/k)∑_{j=1}^{k} 1_C( X_{-τ_j}) 로 정의한다. 이는 “패턴 B(j) 가 마지막으로 나타난 시점 τ_j 에서의 관측값”을 이용한 단순 평균이다. 이 추정량은 데이터 길이 λ_k 가 무작위이지만, k 가 커짐에 따라 λ_k →∞ 이므로 충분히 많은 샘플을 포함한다.
정리 1은 위 구성에 대해, 모든 Borel 집합 C 에 대해 P_k(C) → P(C│X_{-∞}^{-1}) 가 a.s. 로 수렴함을 보인다. 증명은 P_k(C)−P(C│X_{-∞}^{-1}) 를 세 항으로 분해한다. 첫 번째 항은 초기 유한 k 에서 발생하는 오차로, k→∞ 에서 사라진다. 두 번째 항은 마팅게일 차이의 평균이며, 레비의 정리와 Azuma의 부등식으로 거의 확실히 0 으로 수렴한다. 세 번째 항은 조건부 기대값의 평균으로, σ( B(j) ) 가 전체 과거 σ-대수로 증가함을 이용해 마팅게일 수렴 정리와 토플리츠 보조정리로 0 으로 수렴한다.
양자화 파티션을 점점 미세화하면, 모든 실수 x 에 대해 누적분포함수 F_k(x)=P_k((−∞,x]) 가 연속점에서 F(x)=P(X₀≤x│X_{-∞}^{-1}) 로 수렴한다. 따라서 추정량은 약한 위상에서 전체 조건부 분포에 대한 강일관적 수렴을 제공한다.
다음 장에서는 회귀 추정으로 확장한다. 제한된 실수 D 가 존재한다면, φ(x)=clip(x,−D,D) 라는 유계 연속 함수를 정의하고, R_k = (1/k)∑_{j=1}^{k} X_{-τ_j}=∫ x P_k(dx) 로 표현한다. φ 로 제한하면 R_k = ∫ φ(x) P_k(dx) 가 되고, 위 정리와 Billingsley(1968)의 결과에 의해 R_k → E(X₀│X_{-∞}^{-1}) 가 a.s. 로 수렴한다. 이는 비모수 회귀 추정이 ergodic 시계열에서도 강일관적임을 의미한다.
패턴 인식(2‑class classification) 부분에서는 (X_n,Y_n) 쌍을 고려한다. η_k = (1/k)∑_{j=1}^{k} Y_{-τ_j} 로 사후 확률 η(x)=P(Y₀=1│X₀,D_{-}) 를 추정하고, η_k → η a.s. 이므로 베이즈 최적 규칙 g*(X₀,D_{-}) 를 η_k 로 근사한 g_k 가 위험을 동일하게 수렴한다. 이는 비모수 방법이 라벨이 있는 시계열에도 적용 가능함을 보여준다.
마지막으로 온라인 예측을 논한다. ˆR_t = R_{κ_t} 로 정의된 추정량은 현재까지 관측된 t 개의 데이터만을 사용해 계산되며, shift 연산자 T 를 이용해 미래 시점 t 에 대한 예측값으로 해석된다. 이 예측기는 Bailey(1976)의 부정 결과(항상 완전한 예측은 불가능)와 달리, 강일관적 수렴을 보장하지만, 수렴 속도는 데이터 양에 크게 의존한다는 점을 강조한다.
전체적으로 이 논문은 ergodic·stationary 가정만으로도, 과거 패턴 매칭을 통한 “무작위 샘플링”이 마팅게일 구조와 결합해 강일관적 비모수 추정을 가능하게 함을 증명한다. 알고리즘은 구현이 단순하고, 증명은 마팅게일 차이와 토플리츠 보조정리를 이용해 투명하게 전개된다. 다만, 실제 적용 시 충분히 큰 λ_k 가 필요하므로 데이터가 풍부한 상황에서만 실용적일 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기