대규모 생물의학 지식 그래프 구축과 AI 에이전트 접근
본 논문은 Rust 기반 Samyama 그래프 데이터베이스를 활용해 Pathways, Clinical Trials, Drug Interactions 세 가지 공개 생물의학 지식 그래프(KG)를 자동화된 ETL 파이프라인으로 구축하고, 단일 테넌트에 로드해 속성 기반 연합 질의를 가능하게 한다. 또한 스키마‑드리븐 MCP 서버를 자동 생성해 LLM 에이전트가 자연어로 질의할 수 있도록 하였으며, 새로 만든 BiomedQA 벤치마크에서 98% 정확…
저자: Madhulatha M, arapu, S
본 연구는 생물의학 분야에서 데이터가 다양한 형식과 스키마로 분산되어 있어 연구자가 여러 데이터베이스를 개별적으로 다운로드하고 스크립트를 작성해 교차 참조하는 과정이 비효율적이고 재현성이 낮다는 문제점을 인식한다. 이를 해결하기 위해 저자들은 Rust 기반 고성능 그래프 데이터베이스인 Samyama를 중심으로 세 가지 오픈 소스 지식 그래프(KG)를 구축하였다. 첫 번째는 Reactome, STRING, Gene Ontology, WikiPathways, UniProt를 통합한 Pathways KG로, 118 686개의 노드와 834 785개의 엣지를 포함한다. 두 번째는 ClinicalTrials.gov, MeSH, RxNorm, OpenFDA, PubMed를 활용한 Clinical Trials KG로, 7 774 446개의 노드와 26 973 997개의 엣지를 보유한다. 세 번째는 DrugBank, DGIdb, SIDER를 결합한 Drug Interactions KG로, 32 726개의 노드와 191 970개의 엣지를 제공한다.
각 KG는 동일한 5단계 ETL 파이프라인을 따르며, 다운로드 → 파싱·필터링 → 중복 제거 → 배치 로드 → 스냅샷(export) 순으로 진행된다. 특히 중복 제거 단계에서는 전역 레지스트리를 사용해 동일 식별자를 가진 엔티티가 여러 소스에서 중복 생성되지 않도록 보장한다. 배치 로드는 Samyama의 HTTP API를 통해 50~100개의 CREATE 문을 한 번에 전송함으로써 효율성을 높였으며, 최종 그래프는 gzip 압축된 JSON‑lines 형식의 .sgsnap 파일로 저장돼 다른 Samyama 인스턴스에서 즉시 복원 가능하도록 설계되었다.
연합(federation) 측면에서, Samyama는 다중 스냅샷을 단일 테넌트에 순차적으로 임포트하는 방식을 지원한다. 이때 각 스냅샷은 기존 그래프에 노드와 엣지를 추가하는 형태로 병합되며, 동일 식별자를 가진 엔티티는 별도 노드로 존재한다. 따라서 실제 조인은 Cypher 질의 내에서 속성 기반 매칭(예: UniProt accession, drugbank_id, gene_name 등)으로 수행된다. 논문은 “당뇨병 치료제의 표적 유전자와 해당 유전자가 참여하는 경로”라는 복합 질의를 세 KG를 가로질러 해결하는 과정을 상세히 제시하고, 이러한 연합 질의가 1~4초 내에 처리됨을 실험적으로 입증한다.
AI 에이전트 접근성은 Model Context Protocol(MCP) 표준을 활용해 구현된다. 각 KG는 스키마를 자동 추출하고, 노드 라벨·엣지 타입별로 검색·조회·카운트 기능을 포함한 툴을 자동 생성한다. 예를 들어 Pathways KG는 pathway_members, interaction_partners, go_enrichment 등 12개의 도구를 제공하고, Drug Interactions KG는 drug_interactions, polypharmacy_risk 등 12개의 도구를 제공한다. LLM(예: GPT‑4o)이 자연어 질의를 입력하면, MCP 서버는 해당 질의에 가장 적합한 도구를 선택해 파라미터를 채워 Cypher 템플릿을 실행하고, 구조화된 JSON 결과를 반환한다.
성능 평가에서는 AWS g4dn.4xlarge 인스턴스(16 vCPU, 62 GB RAM, NVIDIA A10G)에서 각 KG의 스냅샷 임포트 시간을 측정했다. Pathways KG는 3.4 s, Drug Interactions KG는 0.7 s, Clinical Trials KG는 177 s가 소요됐으며, 전체 연합 그래프는 181 s에 로드되었다. 메모리 사용량은 33 GB(전체 RAM의 53%)에 머물렀다. 질의 성능은 단일 KG에서 80~100 ms, 연합 질의에서 1~4 s를 기록했다.
AI 에이전트 정확도 평가는 새로 만든 BiomedQA 벤치마크(40개의 약리학 질문)에서 수행되었다. 스키마‑드리븐 MCP 도구를 이용한 에이전트는 39/40(98%)의 정답률을 보였으며, 스키마를 인식한 텍스트‑투‑Cypher 방식은 85%, 순수 GPT‑4o는 75%에 그쳤다. 특히 MCP 기반 접근은 스키마 오류가 전혀 발생하지 않아, 실제 임상·연구 현장에서 신뢰성 높은 자동 질의 시스템으로 활용 가능함을 시사한다.
결론적으로, 이 논문은 (1) 고성능 Rust 엔진을 통한 대규모 KG 구축·로드, (2) 스냅샷 기반 즉시 배포와 속성 기반 연합 질의, (3) 자동 생성된 MCP 도구를 통한 LLM 친화적 인터페이스라는 세 축을 결합해, 기존 Bio2RDF·Hetionet·Clinical Knowledge Graph의 한계를 뛰어넘는 통합 플랫폼을 제시한다. 향후 연구는 더 많은 데이터 소스(예: 전사체·단백질체 데이터)와 그래프 신경망 기반 예측 모델을 연계하고, 멀티‑모달(텍스트·이미지·시퀀스) 데이터와의 통합을 통해 정밀 의학 및 신약 탐색에 적용하는 방향으로 확장될 수 있다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기