유전자 상호작용 및 경로 영향 분석을 위한 증거 기반 검색 강화 프레임워크

GIP‑RAG는 KEGG·WikiPathways·SIGNOR·Pathway Commons·PubChem 등 다중 데이터베이스를 통합한 유전자 상호작용 지식그래프와 대형 언어모델(LLM)을 결합해, 사용자가 지정한 유전자 집합에 대해 관련 서브그래프를 검색하고 구조화된 프롬프트로 LLM에게 단계별 추론을 수행하도록 한다. 직접·간접 조절 관계와 메커니즘을 증거와 함께 제시하고, 유전자 교란이 경로 전반에 미치는 영향을 시뮬레이션해 해석 가능한 결…

저자: Fujian Jia, Jiwen Gu, Cheng Lu

유전자 상호작용 및 경로 영향 분석을 위한 증거 기반 검색 강화 프레임워크
본 논문은 유전자 간 조절 관계와 그에 따른 생물학적 경로 변화 를 해석하기 위한 새로운 프레임워크 GIP‑RAG를 제안한다. 먼저 KEGG, WikiPathways, SIGNOR, Pathway Commons, PubChem 등 다섯 개의 공공 데이터베이스에서 유전자·경로·화합물 상호작용 정보를 추출한다. 각 데이터베이스는 독립적으로 파싱되어, 출발 엔티티, 상호작용 유형, 목표 엔티티 로 구성된 삼중항 형태로 변환된다. 이후 모든 유전자 명칭을 HGNC 공식 심볼로 매핑하고, “activates”, “positively regulates” 등 다양한 표현을 “activation” 등 통제 어휘로 정규화한다. 각 상호작용은 지원 데이터베이스 수, 원본 증거 수준(수동 큐레이션·문헌·추론), 방향성·기전 어노테이션 완전성 등을 종합해 복합 신뢰도 점수를 부여하고, 사전 정의된 임계값 이상인 경우에만 최종 지식그래프에 포함한다. 그래프는 Neo4j 기반의 속성 그래프 모델로 저장되며, 노드 타입은 유전자, 경로, 화합물이며, 엣지는 유전자‑유전자 조절, 유전자‑경로 연관, 유전자‑화합물 상호작용 등으로 구분된다. 각 엣지는 상호작용 유형, 출처 데이터베이스, 신뢰도 점수, 문헌 인용 등 메타데이터를 포함한다. 사용자가 질의로 유전자 리스트를 제공하면, 시스템은 (1) 입력 유전자의 정규화·검증, (2) 깊이 D 를 동적으로 조절하며 깊이 우선·너비 우선 탐색을 수행해 직접 인접, 공유 조절자, 경로 매개 간접 연결을 포함하는 서브그래프를 추출한다. 추출된 서브그래프는 JSON 형식으로 직렬화되어 LLM에 전달된다. 프롬프트 설계는 네 단계로 구성된다. 첫째, LLM에게 “분자생물학 전문가” 역할을 부여하고, 둘째, 서브그래프 정보를 JSON 형태로 제공한다. 셋째, 체인‑오브‑생각(Chain‑of‑Thought) 방식으로 (a) 모든 가능한 경로 식별, (b) 각 경로의 증거 강도(데이터베이스 수·신뢰도·기전 일관성) 평가, (c) 고신뢰 경로를 종합·순위 매겨 최종 조절 관계와 방향성을 도출하도록 지시한다. 넷째, 출력 형식은 자연어 설명에 핵심 결론, 메커니즘 설명, 증거 출처 인용, 증거 강도 평가, 한계 기술을 포함하도록 강제한다. 이렇게 함으로써 LLM이 내부 파라미터에 의존한 추론이 아니라, 명시적 증거에 기반한 논리적 추론을 수행하도록 만든다. GIP‑RAG는 또한 경로 수준 기능 영향 평가 모듈을 제공한다. 여기서는 (1) 경로‑중심 서브그래프를 확대 추출하고, (2) 가상의 유전자 교란 시나리오(예: “Gene A 손실 기능”)를 입력으로 제공한다. LLM은 (a) 교란 노드에서 시작되는 신호 전파를 로컬 수준에서 시뮬레이션하고, (b) 네트워크 전반에 걸친 다운스트림 모듈 영향을 식별하며, (c) 보상 메커니즘·중복 경로·피드백 루프 등을 고려해 세밀한 영향 평가를 수행한다. 최종 출력은 변형된 핵심 경로 상태, 메커니즘적 연쇄 반응, 시스템 수준 적응 반응을 구조화된 보고서 형태로 제공한다. 시스템 구현은 네 개의 주요 컴포넌트로 구성된다. 첫째, Neo4j 기반 그래프 저장·쿼리 레이어; 둘째, BioBERT 혹은 유사 모델을 이용한 텍스트 임베딩과 FAISS 기반 벡터 검색을 결합한 의미 검색 모듈; 셋째, LangChain을 이용한 RAG 파이프라인으로, 질의 전처리·그래프 기반 증거 검색·증거 순위·컨텍스트 조립·LLM 추론을 순차적으로 수행한다; 넷째, 온‑프레미스 혹은 클라우드 API 형태의 대형 언어 모델을 추론 엔진으로 사용한다. 파라미터 설정(temperature, token 제한, deterministic decoding 등)으로 출력의 안정성을 제어한다. 모듈화된 설계 덕분에 임베딩 모델이나 LLM을 교체해도 전체 흐름은 유지된다. 실험에서는 다양한 생물학적 시나리오(암, 대사 질환, 신경퇴행 등)와 질의 집합에 대해 GIP‑RAG를 평가하였다. 결과는 (1) 기존 단일 데이터베이스 기반 혹은 순수 생성형 LLM 대비 일관성·해석 가능성·증거 기반성에서 우수함을 보여준다. (2) 다중 홉·교차 경로·맥락 의존적 간접 조절 관계를 정확히 포착하고, (3) 경로 교란 효과를 정량적·정성적으로 설명하는 데 뛰어난 성능을 보였다. 특히, GIP‑RAG는 증거가 부족한 경우 “증거 부족”이라고 명시하고, 가능한 대안 경로를 제시함으로써 사용자에게 신뢰 가능한 정보를 제공한다. 결론적으로, GIP‑RAG는 고품질 다중 출처 지식그래프와 LLM 기반 증거 강화 추론을 결합한 프레임워크로, 정밀 의학, 신약 타깃 발굴, 질병 메커니즘 분석 등에 실용적인 도구가 될 잠재력을 가진다. 향후에는 더 많은 데이터베이스 통합, 실시간 문헌 업데이트, 그리고 실험적 검증 파이프라인과의 연계 등을 통해 시스템의 정확도와 적용 범위를 확대할 계획이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기