다중 그래프 구조 추정을 위한 통합 베이지안·그룹 라쏘 기법

시스템 생물학에서는 동일한 분자 집합에 대해 여러 실험 조건(예: 야생형 vs. 돌연변이, 서로 다른 조직, 시간점 등)에서 측정된 데이터가 존재한다. 이러한 데이터들을 단일 GGM에 병합해 분석하면 표본 수는 늘어나지만, 각 조건마다 분포가 달라 i.i.d. 가정이 깨진다. 저자들은 이 문제를 해결하기 위해 각 조건을 별도의 과제로 보고, 여러 과제의 그래프 구조를 동시에 추정하는 다중‑task 학습 프레임워크를 도입한다. 먼저, GGM의 기본 이론을 소개한다. 관측 데이터 X∈ℝ^{n×p}가 다변량 정규분포 N(0,Σ)에서 추출된다고 가정하고, Σ^{-1}=K가 집중 행렬이다. K_{ij}=0이면 변수 i와 j는 조건부 독립이며, 이는 무방향 그래프의 부재에 해당한다. 직접적인 최대우도 추정은 K를 완전하게 만든다. 따라서 \(\ell_1\) 패널티를 부과해 희소성을 강제하는 그래픽 라쏘(Glasso)와 같은 방법이 사용된다. 저자는 pseudo‑likelihood 접근법을 채택해, 각 변수 i에 대해 나머지 변수들을 설명하는 LASSO 회귀를 수행함으로써 K의 비대각 원소를 추정한다. 이때 pseudo‑log‑likelihood는 \(\frac{n}{2}\log\det(D)-\frac{n}{2}\operatorname{tr}(DKSD)-\frac{np}{2}\log(2\pi)\) 형태이며, D는 K의 대각 성분이다. Proposition 1에 의해 전체 최적화는 p개의 독립 LASSO 문제로 분해된다. 다중 그래프 추정을 위한 두 가지 방법이 제안된다. 첫 번째는 Intertwined‑LASSO이다. 각 과제 t의 경험공분산 S(t)를 전체 평균 \(\bar S\)와 혼합해 \(\tilde S(t)=\alpha S(t)+(1-\alpha)\bar S\) 로 만든 뒤, 기존 pseudo‑likelihood에 적용한다. 이는 공통 사전분포(Wishart)와 유사한 효과를 내며, α=0.5를 기본값으로 설정해 하이퍼파라미터 튜닝을 최소화한다. 두 번째는 Cooperative‑LASSO이다. 여기서는 각 변수쌍 (i,j)을 그룹으로 묶어, 모든 과제의 K(t)_{ij}를 하나의 벡터로 본다. 기본 그룹‑라쏘는 \(\sum_{i

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기