연관성 측정의 새로운 기준: LD의 정규화된 정준 척도

본 논문은 현대 유전체 연구에서 빈번히 등장하는 이형접합 마커 쌍의 연관성을 정량화하기 위한 새로운 프레임워크를 제시한다. 서론에서는 SNP 칩과 mCGH 등 대규모 바이너리 마커 데이터가 급증함에 따라, 2×2 교차표에 대한 LD(연결 불균형) 측정의 필요성을 강조한다. 기존에 제안된 D, D′, r, λ, Q, MI, D_vol 등 다양한 척도가 문헌에 존재하지만, 각각이 “무연관(η=0)”, “완전 연관(η=±1)”, “대칭성”, “선택 불변성”, “표준화”, “최대 엔트로피”와 같은 기본적인 통계·생물학적 요구조건을 모두 만족하지 못한다는 점을 지적한다. 이를 해결하기 위해 저자들은 여섯 가지 공리(P1‑P6)를 정립한다. P1은 η가 연속함수이며 표본과 추정은 별개의 문제임을 명시한다. P2는 독립 표와 완전 LD 표를 정의하고, 완전 LD는 하나의 셀 값이 0에 수렴하면서 마진은 양의 하한을 유지하는 경우로 본다. P3은 행·열 전치와 마커 교환에 대한 부호 변환을 포함한 대칭성을 요구한다. P4는 “선택 불변성”을 도입해 행·열을 양의 상수로 스케일링해도 η가 변하지 않도록 한다. 이는 마진 비율이 변해도 본질적인 연관성은 동일하다는 생물학적 직관을 반영한다. P5는 η의 값이 (‑1, 1) 구간에 정규화되도록 하며, 극한 상황에서 η→±1이 되도록 한다. 마지막으로 P6은 η의 분포가 최대 엔트로피, 즉 균등분포가 되도록 캘리브레이션 분포 D를 선택한다. 수학적 전개에서는 먼저 G=(ℝ_{+}×ℝ_{+})의 작용 g(μ,ν)으로 표를 변환하고, 선택 불변성 함수는 오즈비 λ=p_{00}p_{11}/(p_{01}p_{10})에만 의존한다는 정리 1을 증명한다. λ는 양의 실수값을 취하고, λ에 대한 동형사상 ˜λ: ˜T→ℝ_{+}가 존재함을 보인다. 따라서 모든 선택 불변성 측정 η는 η(t)=h(λ(t)) 형태로 표현될 수 있다. 정리 2에서는 대칭적 비정보 분포 D (예: 제프리스 사전 Dirichlet(½,½,½,½))를 선택하고, λ의 누적분포함수 L을 구한다. 그 후 η(t)=2·L(λ(t))−1 로 정의하면 P1‑P6을 모두 만족하는 유일한 정준 LD 측정이 된다. η는 “λ보다 덜 극단적인 표가 차지하는 비율”을 −1~1 구간에 매핑한 것으로, 직관적인 해석이 가능하다. 다음으로 저자들은 대칭 Dirichlet(α) 분포에 대해 λ의 분포를 적분적으로 구한다. α=½(제프리스), α=1(균등), α=2(강한 사전) 세 경우에 대해 폐쇄형식 또는 수치적 근사를 제시한다. 특히 제프리스 사전은 마진 빈도의 분포가

연관성 측정의 새로운 기준: LD의 정규화된 정준 척도

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기