대규모 계통수에서 비모수적 부위별 변이율 모델의 식별성 및 추정 방법

본 논문은 부위별 변이율이 서로 다른 대규모 계통수에 대해, 사이트를 변이율에 따라 군집화하고, 이후 기존 트리 재구성 알고리즘을 적용함으로써 정확한 계통수 복원을 가능하게 하는 새로운 알고리즘을 제시한다. 큰 트리에서는 특정 사이트 통계가 집중 현상을 보이며, 이를 이용해 일반적인 비모수적 변이율 분포에서도 트리 식별성과 필요한 서열 길이 상한을 이론적으로 증명한다.

저자: Elchanan Mossel, Sebastien Roch

**1. 연구 배경 및 목표** 분자 서열을 이용한 계통수 재구성에서 부위별 변이율 차이는 주요 난제이며, 특히 변이율이 섞인 경우(혼합 모델)에는 동일한 데이터 분포를 생성하는 서로 다른 트리가 존재할 수 있어 식별성이 손상된다. 기존 이론은 특정 파라미터화된 모델(GTR+Gamma 등)에서 식별성을 증명했지만, 일반적인 비모수적 변이율 분포에 대한 실용적인 복원 알고리즘은 부재했다. 본 논문은 “대규모 트리(leaf 수 →∞)” 상황에서 이러한 문제를 해결하고자 한다. **2. 기본 모델 정의** - **Phylogeny**: 내부 정점 차수가 3인 트리, 각 간선에 양의 가중치 µ_e (진화 거리) 부여. - **Poisson 모델**: 각 간선에 대해 연속시간 마코프 과정 Q를 사용해 전이 행렬 M(e)=exp(µ_e Q) 적용. Jukes‑Cantor(4‑state)와 CFN(2‑state) 모델이 특수 경우. - **Rates‑Across‑Sites (RAS)**: 스케일링 변수 Λ≥0를 각 사이트마다 독립적으로 샘플링하고, 트리의 모든 간선 가중치를 Λ배 확대(또는 축소)한다. Λ의 분포는 비모수적이며, 평균 1로 정규화한다. **3. 주요 가정** - **Regular Phylogeny**: 모든 간선 가중치가

대규모 계통수에서 비모수적 부위별 변이율 모델의 식별성 및 추정 방법

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기