온라인 베이지안 변곡점 탐지 실시간 런 길이 추정과 예측
본 논문은 베이지안 프레임워크를 이용해 시계열 데이터의 최신 변곡점을 실시간으로 추정하는 알고리즘을 제시한다. 런 길이(마지막 변곡점 이후 경과 시간)의 사후 분포를 메시지‑패싱 방식으로 계산하고, 이를 통해 다음 관측값의 예측 분포를 얻는다. 지수형 사전·우도와 공액 사후를 활용해 다양한 데이터 유형에 모듈식으로 적용 가능함을 세 가지 실제 데이터셋으로 입증한다.
저자: ** Ryan P. Adams, David J. C. MacKay **
본 논문은 시계열 데이터에서 변곡점(갑작스러운 파라미터 변화)을 실시간으로 탐지하기 위한 베이지안 접근법을 제안한다. 기존 연구는 주로 사후 분석을 통한 회고적(segmentation) 방법에 초점을 맞추었으나, 저자들은 현재 시점까지 관측된 데이터만을 이용해 최신 변곡점의 사후 분포를 정확히 추정하고, 이를 기반으로 다음 관측값을 예측하는 온라인 필터링 프레임워크를 구축한다.
**문제 정의와 기본 가정**
시계열 \(\{x_t\}_{t=1}^T\) 를 비중첩 구간 \(\rho\) 로 나누고, 각 구간 내 데이터는 i.i.d. 로 \(P(x_t|\eta_\rho)\) 를 따른다. 구간 파라미터 \(\eta_\rho\) 는 사전적으로 독립이며, 변곡점 간 간격 \(g\) 에 대한 사전 분포 \(P_{\text{gap}}(g)\) 를 정의한다. 핵심은 현재 런 길이 \(r_t\) (마지막 변곡점 이후 경과한 데이터 수)를 추정하는 것이며, 이를 통해 \(P(r_t|x_{1:t})\) 를 구한다.
**재귀적 메시지‑패싱**
베이지안 업데이트는 두 요소로 분해된다. 첫째, 변곡점 전이 확률 \(P(r_t|r_{t-1})\) 은 런 길이가 연속적으로 증가하거나(확률 \(1-H(r_{t-1}+1)\)) 변곡점이 발생해 0으로 리셋되는 경우(확률 \(H(r_{t-1}+1)\))만을 허용한다. 여기서 Hazard 함수 \(H(\tau)=\frac{P_{\text{gap}}(g=\tau)}{\sum_{t\ge\tau}P_{\text{gap}}(g=t)}\) 로 정의된다. 두번째는 현재 런 길이에 대한 예측 분포 \(P(x_t|r_{t-1},x_{(r)}^{t-1})\) 로, 이는 충분통계량만을 필요로 한다.
**지수형 우도와 공액 사전**
저자는 지수형 우도 \(P(x|\eta)=h(x)\exp(\eta^\top U(x)-A(\eta))\) 와 그에 대한 공액 사전 \(P(\eta|\chi,\nu)\) 를 사용한다. 이렇게 하면 파라미터 \(\eta\) 의 사후도 동일한 형태의 지수형 분포가 되며, 충분통계량 \(\nu(r)_t,\chi(r)_t\) 를 순차적으로 업데이트할 수 있다. 구체적으로 \(\nu(r)_t=\nu_{\text{prior}}+r\), \(\chi(r)_t=\chi_{\text{prior}}+\sum_{t'\in r}U(x_{t'})\) 로 정의된다. 예측 분포는 \(\pi(r)_t=P(x_t|\nu(r)_t,\chi(r)_t)\) 로 계산된다.
**알고리즘 흐름**
1. 초기화: 런 길이 사전 \(P(r_0)\) 를 설정(예: 전체 사전이 변곡점 전이라고 가정하면 \(P(r_0=0)=1\)).
2. 새로운 관측값 \(x_t\) 수신.
3. 각 가능한 \(r_{t-1}\) 에 대해 예측 확률 \(\pi(r)_{t}\) 계산.
4. 성장 확률 \(P(r_t=r_{t-1}+1,x_{1:t}) = P(r_{t-1},x_{1:t-1})\pi(r)_t(1-H(r_{t-1}+1))\) 업데이트.
5. 변곡점 확률 \(P(r_t=0,x_{1:t}) = \sum_{r_{t-1}} P(r_{t-1},x_{1:t-1})\pi(r)_t H(r_{t-1}+1)\) 계산.
6. 전체 증거 \(P(x_{1:t})\) 로 정규화하여 사후 \(P(r_t|x_{1:t})\) 얻음.
7. 충분통계량을 \(r_t\) 별로 업데이트(새로운 런 길이는 기존 통계에 현재 관측값을 추가).
8. 예측 \(P(x_{t+1}|x_{1:t}) = \sum_{r_t} P(x_{t+1}|r_t)P(r_t|x_{1:t})\) 수행.
시간·공간 복잡도는 매 단계마다 현재까지 가능한 런 길이 수만큼 연산이 필요하므로 최악의 경우 \(O(t)\) 이다. 그러나 확률 질량이 작은 꼬리를 임계값 이하로 잘라내면 평균 복잡도는 기대 런 길이 \(\mathbb{E}
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기