유기와 무기 항암제 통합 학습을 위한 ChemCLIP

ChemCLIP은 유기 소분자와 금속 착물이라는 서로 다른 화학 영역을 항암 활성을 기준으로 정렬하는 듀얼 인코더 대조 학습 프레임워크이다. 44,854개의 유기 화합물과 5,164개의 금속 복합체를 60개의 암세포주에 대해 표준화한 데이터를 사용해 256차원 임베딩 공간을 학습했으며, Morgan 지문이 가장 높은 정렬 비율(0.899)과 분류 AUC(유기 0.817, 무기 0.859)를 기록했다.

저자: Mohamad Koohi-Moghadam, Hongzhe Sun, Hongyan Li

유기와 무기 항암제 통합 학습을 위한 ChemCLIP
본 연구는 유기 소분자와 금속 착물이라는 두 개의 독립된 화학 영역을 항암 활성이라는 공통 목표를 기반으로 통합하려는 새로운 접근법인 ChemCLIP을 제안한다. 기존 약물 발견에서는 유기 화합물과 금속 기반 약물이 각각 별도의 데이터베이스와 모델링 전략으로 다루어졌으며, 특히 유기 화합물은 NCI‑60과 같은 대규모 스크리닝 데이터가 존재하는 반면, 금속 착물은 수천 건 수준에 불과해 데이터 불균형이 심했다. 이러한 구조적·데이터적 격차는 두 영역 간 지식 전이를 어렵게 만들었다. ChemCLIP은 CLIP(Contrastive Language‑Image Pre‑training)에서 영감을 받아, 두 개의 독립적인 인코더를 사용해 각각 유기 화합물과 금속 착물을 임베딩한다. 유기 화합물은 Morgan 지문, ChemBERTa, MolFormer, Chemprop 등 네 가지 피처링 방법 중 하나로 표현되며, 금속 착물은 리간드 SMILES와 금속 특성(금속 종류 원‑핫, 산화 상태, 원자 번호, 원자가 전자 수 등)을 결합한 형태로 인코딩된다. 두 인코더는 동일한 256차원 임베딩 공간으로 투사되며, 이 공간에서 동일 세포주에 대해 측정된 유기‑무기 쌍은 양성 샘플, 그 외 모든 조합은 음성 샘플로 간주한다. 학습 손실은 두 부분으로 구성된다. 첫 번째는 InfoNCE 기반의 양방향 대조 손실로, 배치 내 모든 가능한 유기‑무기 조합을 이용해 전반적인 구조‑활성 정렬을 유도한다. 두 번째는 활동 인식 하드 네거티브 마이닝을 적용한 트리플렛 마진 손실이다. 여기서는 같은 세포주 내에서 활성 유기 화합물을 양성, 비활성 유기 화합물을 하드 네거티브로 선택해, 모델이 미세한 활성 차이를 구분하도록 강제한다. 두 손실을 동일 가중치로 합산함으로써, 넓은 범위의 구조적 유사성뿐 아니라 활동 기반의 세밀한 구분도 동시에 학습한다. 데이터 전처리 단계에서는 NCI‑60 데이터베이스에서 44,854개의 유기 화합물을, MetalCytoToxDB에서 5,164개의 금속 착물을 추출하고, 60개의 공통 암세포주에 대해 활동 라벨을 통일하였다. 유기 데이터는 활성/비활성 비율이 1:39.4로 매우 불균형했으며, 이를 완화하기 위해 비활성 화합물을 5:1 비율로 샘플링하였다. 데이터는 화합물 단위로 70% 학습, 15% 검증, 15% 테스트로 분할하여, 동일 화합물이 서로 다른 셋에 겹치지 않도록 하였다. 네 가지 인코더의 성능을 비교한 결과, 전통적인 Morgan 지문이 가장 우수했다. 평균 정렬 비율(Alignment Ratio)은 0.899, 분리 비율(Separation Ratio)은 1.127을 기록했으며, downstream 분류에서는 유기 화합물에 대해 AUC 0.817, 금속 착물에 대해 AUC 0.859를 달성했다. ChemBERTa와 MolFormer는 중간 수준의 정렬·분리 비율을 보였지만, Morgan 지문에 비해 약간 낮은 성능을 보였다. Chemprop 기반 그래프 신경망은 유기‑무기 구분은 가능했으나, 활성·비활성 구분에서는 거의 차이를 만들지 못해 정렬 비율이 1.000에 머물렀다. 이는 현재의 듀얼‑인코더 구조가 그래프 기반 피처를 충분히 활용하지 못했거나, 금속 특성 통합 방식이 그래프와 잘 맞지 않았기 때문일 가능성이 있다. 임베딩 시각화(t‑SNE)에서도 학습 전후의 변화를 확인할 수 있다. 학습 전에는 인코더별로 구조적 차이가 크게 나타났으나, 학습 후 Morgan 지문 기반 임베딩은 활성·비활성 군집이 명확히 구분되고, 유기와 무기 사이에서도 활동 기반 정렬이 이루어졌다. 이는 ChemCLIP이 “구조가 다르더라도 같은 생물학적 효과를 가진 화합물을 같은 위치에 매핑”한다는 핵심 가설을 실증한다. 또한, 학습된 고정 임베딩을 그대로 사용해 downstream 활성 예측 모델을 훈련시켰을 때, 별도의 파인튜닝 없이도 높은 AUC를 달성했다. 이는 대규모 스크리닝 파이프라인에 즉시 적용 가능함을 의미한다. 저자들은 향후 금속 종류를 확대하고, 다른 치료 영역(예: 항바이러스, 항염증)으로 적용하며, 텍스트·이미지와 같은 멀티모달 데이터와 결합하는 방향을 제시한다. 이러한 확장은 ChemCLIP을 단순한 항암 후보 물질 탐색을 넘어, 전반적인 약물 재설계 및 다중 치료제 플랫폼으로 발전시킬 수 있는 가능성을 보여준다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기