Approximate Bayesian Computation을 이용한 유전자조절망 역설계

논문은 유전자조절망(GRN)이 세포 내에서 복잡한 상호작용을 통해 유전자 발현을 조절한다는 배경에서 시작한다. 고속 마이크로어레이와 차세대 시퀀싱 기술의 발달로 시간에 따른 대규모 발현 데이터를 얻을 수 있게 되었지만, 관측치 수(T)와 복제 수가 제한된 반면 측정 유전자 수(P)가 매우 커지는 ‘large‑p small‑n’ 문제에 직면한다. 이러한 상황에서는 전통적인 회귀나 그래프 모델링 기법이 과적합과 계산 복잡도 문제로 적용이 어려워, 베이지안 프레임워크와 동적 베이지안 네트워크(DBN) 같은 전문적인 방법론이 도입되었다. DBN은 시간 동적성을 고려해 마코프 모델을 사용하지만, 사후분포를 직접 계산하려면 복잡한 적분이 필요하고, 특히 오류항(e_t)의 분포를 명시하지 않으면 likelihood를 구할 수 없다. 저자들은 이러한 한계를 극복하기 위해 Approximate Bayesian Computation(ABC) 방법을 도입한다. ABC는 파라미터를 사전분포에서 샘플링하고, 그 파라미터로부터 시뮬레이션 데이터를 생성한 뒤, 관측 데이터와 거리 함수 ρ(·)를 통해 허용오차 ε 이하인 경우에만 파라미터를 받아들인다. 기존 ABC‑Reject는 수용률이 극히 낮아 실용성이 떨어지므로, Marjoram et al. (2003)의 ABC‑MCMC를 기반으로 알고리즘을 재구성한다. 여기서 핵심은 (i) 네트워크 구조와 파라미터를 동시에 제안하는 제안분포 q(·|·) 설계, (ii) 제안된 파라미터 Θ̂를 이용해 데이터 Ŷ를 효율적으로 시뮬레이션하는 방법이다. 저자들은 VAR(1) 모델 y_t = Θ y_{t‑1} + e_t 를 채택하고, e_t의 분포를 가정하지 않는다. 대신 시뮬레이션 단계에서 e_t를 무시하고 ŷ_t = Θ̂ y_{t‑1} 로 결정론적으로 예측값을 만든다. 이는 마코프 특성을 이용해 계산량을 크게 줄이지만, 실제 노이즈를 반영하지 못한다는 트레이드오프가 있다. 사전분포는 두 부분으로 나뉜다. 네트워크 인접 행렬 G에 대해서는 모든 가능한 구조에 대해 균등분포를 부여하되, 각 유전자의 최대 팬인(fan‑in)을 제한해 희소성을 강제한다. 파라미터 행렬 Θ에 대해서는 G_{ij}=1인 경우에만 -2~2 사이의 균등분포를 적용한다. 이러한 제한은 생물학적 사실(예: 대부분의 유전자는 소수의 조절자에 의해 직접 조절됨)을 반영한다. 알고리즘 흐름은 다음과 같다. (1) 현재 상태 (Θ_i, G_i)에서 제안분포 q를 통해 (Θ*, G*)를 제안한다. (2) Θ*를 이용해 ŷ_t 를 계산하고, 관측 데이터 Y와 거리 ρ(Y, Ŷ) 를 구한다. (3) ρ ≤ ε 인 경우에만 Metropolis‑Hastings 비율 α = min{1,

Approximate Bayesian Computation을 이용한 유전자조절망 역설계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기