시퀀스 길이 연장은 충분하지 않다 유전자 발현 예측을 위한 멀티모달 신호 통합 전략

본 논문은 유전자 발현 예측(task)에서 DNA 서열만을 입력으로 사용하거나, 서열 길이를 인위적으로 늘려 먼 거리 강화자와의 상호작용을 포착하려는 기존 접근법을 비판한다. 저자들은 먼저 장거리 모델링이 실제로는 성능 저하를 초래한다는 사실을 다양한 실험을 통해 입증한다. Enformer와 같은 CNN‑Transformer 하이브리드 모델은 128배 다운샘플링을 통해 단일 뉴클레오타이드 해상도를 잃고, 이는 변이 효과를 정확히 포착하지 못한다는 한계가 있다. SSM 기반 모델인 Seq2Exp은 선형 복잡도로 긴 서열을 처리할 수 있지만, 고정된 hidden state와 recency bias 때문에 멀리 떨어진 조절 요소와의 관계를 학습하지 못한다. 실제로 입력 길이를 2 kb 이상으로 늘리면 MSE가 급격히 증가하고, 200 kb 입력을 사용한 모델도 테스트 시 2.5 kb로 축소해도 성능 차이가 거의 없었다. 이는 모델이 실제로는 근접 영역의 정보를 활용하고 있음을 의미한다. 다음으로 저자들은 근접 영역에 존재하는 멀티모달 에피제네틱 신호가 유전자 발현을 예측하는 데 핵심적인 역할을 한다는 점을 강조한다. H3K27ac(활성 강화자 마크), DNase‑seq(염색질 접근성), Hi‑C(3D 구조) 세 가지 신호를 각각 혹은 조합으로 사용해 Caduceus 모델을 학습시켰다. H3K27ac은 단독 사용 시 가장 큰 성능 향상을 보였으며, 이는 전경 신호가 직접적인 조절 정보를 제공한다는 생물학적 사실과 일치한다. 반면 DNase‑seq과 Hi‑C는 배경 신호로, 각각 단독 사용 시 성능 향상이 미미하지만, 모든 신호를 동시에 사용할 경우 모델이 배경 패턴에 과도하게 의존하게 된다. 특히 테스트 단계에서 배경 신호를 제거하면 성능이 크게 떨어지는 현상이 관찰되었으며, 이는 학습 과정에서 배경 신호와 발현 수준 사이에 스푸리어 상관관계가 형성되었기 때문이다. 실제 사례로, 높은 발현을 보이는 유전자가 낮은 접근성 영역에 위치하는 경우가 존재함을 보여, 배경 신호만으로는 발현을 설명할 수 없음을 입증한다. 이러한 혼동(confounding) 문제를 해결하기 위해 저자들은 인과 그래프(Structural Causal Model, SCM)를 도입한다. 여기서 배경 염색질 상태 C는 여러 에피제네틱 신호의 조합으로 정의되며, H(고차원 특징) → Y(발현) 직접 경로와 H ← C → Y 혼동 경로가 존재한다. 목표는 P(Y|do(H))를 추정해 직접 경로만을 학습하는 것이다. 이를 위해 백도어 조정(backdoor adjustment)을 적용한다. 구체적으로, 원시 신호 S를 두 개의 인코더(gθ, gω)로 변환한다. gθ는 신호를 고차원 특징 H로 매핑하고, gω는 n개의 가중치 벡터 a₁…aₙ을 학습해 각각을 배경 상태 Cᵢ에 대응시킨다. 각 Cᵢ에 대해 P(Y|H, Cᵢ)를 계산하고, 모든 Cᵢ에 대해 균등 평균을 취함으로써 P(Y|do(H))를 근사한다. 이 과정은 배경 상태에 의한 혼동을 효과적으로 차단한다. 제안된 Prism 프레임워크는 기존 Caduceus 아키텍처 위에 가볍게 삽입될 수 있다. 입력은 TSS 주변 5 kb 길이의 DNA 서열과 4가지 에피제네틱 신호이며, gθ와 gω를 통해 각각 H와 A(배경 가중치 행렬)를 얻는다. H와 A는 브로드캐스팅을 통해

시퀀스 길이 연장은 충분하지 않다 유전자 발현 예측을 위한 멀티모달 신호 통합 전략

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기