Approximate Bayesian Computation을 이용한 유전자조절망 역설계

본 논문은 시간 연속 유전자 발현 데이터를 이용해 유전자조절망(GRN)을 추정하기 위해 ABC‑MCMC 알고리즘을 변형한 방법을 제안한다. VAR(1) 모델을 기반으로 네트워크 구조와 파라미터를 시뮬레이션하고, 거리 함수와 허용오차를 이용해 근사 사후분포를 얻는다. 제한된 표본과 고차원 특성을 고려해 희소성 제약과 파라미터 범위 제한을 사전분포에 반영했으며, 시뮬레이션 실험과 대장균 복구 시스템 데이터를 통해 성능을 검증한다.

저자: Andrea Rau, Florence Jaffrezic, Jean-Louis Foulley

Approximate Bayesian Computation을 이용한 유전자조절망 역설계
논문은 유전자조절망(GRN)이 세포 내에서 복잡한 상호작용을 통해 유전자 발현을 조절한다는 배경에서 시작한다. 고속 마이크로어레이와 차세대 시퀀싱 기술의 발달로 시간에 따른 대규모 발현 데이터를 얻을 수 있게 되었지만, 관측치 수(T)와 복제 수가 제한된 반면 측정 유전자 수(P)가 매우 커지는 ‘large‑p small‑n’ 문제에 직면한다. 이러한 상황에서는 전통적인 회귀나 그래프 모델링 기법이 과적합과 계산 복잡도 문제로 적용이 어려워, 베이지안 프레임워크와 동적 베이지안 네트워크(DBN) 같은 전문적인 방법론이 도입되었다. DBN은 시간 동적성을 고려해 마코프 모델을 사용하지만, 사후분포를 직접 계산하려면 복잡한 적분이 필요하고, 특히 오류항(e_t)의 분포를 명시하지 않으면 likelihood를 구할 수 없다. 저자들은 이러한 한계를 극복하기 위해 Approximate Bayesian Computation(ABC) 방법을 도입한다. ABC는 파라미터를 사전분포에서 샘플링하고, 그 파라미터로부터 시뮬레이션 데이터를 생성한 뒤, 관측 데이터와 거리 함수 ρ(·)를 통해 허용오차 ε 이하인 경우에만 파라미터를 받아들인다. 기존 ABC‑Reject는 수용률이 극히 낮아 실용성이 떨어지므로, Marjoram et al. (2003)의 ABC‑MCMC를 기반으로 알고리즘을 재구성한다. 여기서 핵심은 (i) 네트워크 구조와 파라미터를 동시에 제안하는 제안분포 q(·|·) 설계, (ii) 제안된 파라미터 Θ̂를 이용해 데이터 Ŷ를 효율적으로 시뮬레이션하는 방법이다. 저자들은 VAR(1) 모델 y_t = Θ y_{t‑1} + e_t 를 채택하고, e_t의 분포를 가정하지 않는다. 대신 시뮬레이션 단계에서 e_t를 무시하고 ŷ_t = Θ̂ y_{t‑1} 로 결정론적으로 예측값을 만든다. 이는 마코프 특성을 이용해 계산량을 크게 줄이지만, 실제 노이즈를 반영하지 못한다는 트레이드오프가 있다. 사전분포는 두 부분으로 나뉜다. 네트워크 인접 행렬 G에 대해서는 모든 가능한 구조에 대해 균등분포를 부여하되, 각 유전자의 최대 팬인(fan‑in)을 제한해 희소성을 강제한다. 파라미터 행렬 Θ에 대해서는 G_{ij}=1인 경우에만 -2~2 사이의 균등분포를 적용한다. 이러한 제한은 생물학적 사실(예: 대부분의 유전자는 소수의 조절자에 의해 직접 조절됨)을 반영한다. 알고리즘 흐름은 다음과 같다. (1) 현재 상태 (Θ_i, G_i)에서 제안분포 q를 통해 (Θ*, G*)를 제안한다. (2) Θ*를 이용해 ŷ_t 를 계산하고, 관측 데이터 Y와 거리 ρ(Y, Ŷ) 를 구한다. (3) ρ ≤ ε 인 경우에만 Metropolis‑Hastings 비율 α = min{1,

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기