머신러닝으로 구현한 다체 분산 모델 MBDML

본 연구는 분산 상호작용, 특히 반데르발스(vdW) 힘을 정확히 기술하기 위해 널리 사용되는 Many‑Body Dispersion(MBD) 방법을 머신러닝으로 대체할 수 있는 프레임워크인 MBD‑ML을 제안한다. 전통적인 MBD‑NL은 전자밀도 기반 VV‑polarizability 함수를 이용해 원자별 극성도 α₀와 C₆ 계수를 계산하고, 이를 바탕으로 커플된 양자 조화 진동자(QDO) 모델을 구축해 다체 분산 에너지를 얻는다. 이 과정은 전자구조 계산이 선행되어야 하며, 대규모 시뮬레이션에서는 계산 비용과 워크플로우 복잡성을 초래한다. MBD‑ML은 이러한 병목을 해소하기 위해, 원자 좌표와 원자 번호만을 입력으로 받아 αᵣ⁰와 Cᵣ⁶ 비율을 직접 예측하는 사전학습된 메시지 패싱 신경망을 구축한다. 여기서 αᵣ⁰와 Cᵣ⁶는 각각 VV‑함수에서 얻은 α₀와 C₆를 자유 원자 기준값으로 정규화한 무차원량이며, 값이 0~2 사이에 머물러 학습이 용이하도록 설계되었다. 모델은 최신 SO3krates 아키텍처를 기반으로 두 개의 메시지 패싱 레이어와 4 Å 절단 반경을 사용해 8 Å의 효과적인 수용 필드를 제공한다. 훈련 데이터는 QCML 데이터셋으로, 30 백만 개 이상의 분자 구조와 PBE0+MBD‑NL 수준의 에너지·힘·극성도·C₆ 정보를 포함한다. 이 데이터는 79개의 원소를 포괄하며, 중성·양전하 분자를 주로 포함한다. 모델은 αᵣ⁰와 Cᵣ⁶를 각각 RMSE 0.020, 0.023 수준으로 예측하며, 이를 자유 원자 기준값과 곱해 실제 α₀와 C₆를 복원한다. 복원된 파라미터를 libMBD에 전달하면, MBD‑NL과 동일한 Hamiltonian을 구성해 분산 에너지, 원자 힘, 응력 텐서를 직접 계산한다. 에너지 오차는 평균 0.158 meV/atom, 힘 오차는 0.302 meV/Å 정도로, 실용적인 수준에서 거의 차이가 없음을 보여준다. 모델 검증은 네 가지 독립 테스트셋을 통해 수행되었다. 첫 번째는 QCML 보류셋(≈83 k 시스템)으로, 기본적인 비율 예측 정확도를 확인했다. 두 번째는 DES370k(≈309 k 비이온성 다이머)로, 분자 간 결합 에너지와 힘을 재현했으며, 특히 비이온성 시스템에서 높은 전이성을 보였다. 세 번째는 OMol25(≈825 시스템)와 네 번째는 OMC25(≈200 유기 결정)로, 각각 분자 크기와 결정 구조에서 MBD‑ML이 MBD‑NL과 거의 동일한 에너지 순위와 최적화된 구조를 제공함을 입증했다. 특히 유기 결정 폴리모프 예측에서는 에너지 차이가 0.2 meV/atom 수준에 머물러, 실험적 구조와 거의 일치한다. 음전하를 가진 분자에 대해서는 VV‑함수의 전자밀도 꼬리 민감도가 크게 작용해 αᵣ⁰와 Cᵣ⁶ 예측이 불안정해졌다. 저자들은 이러한 경우를 데이터셋에서 제외하고, 실제 물리적으로도 열역학적으로 불안정한 경우가 많다는 점을 언급한다. 또한, 알칼리·알칼리 금속 원소는 훈련 데이터에 충분히 포함되지 않아 해당 원소에 대한 예측 정확도가 낮다. MBD‑ML의 주요 장점은 (1) 전자구조 계산 없이도 MBD‑NL 수준의 정확도를 제공, (2) libMBD와 원활히 통합돼 기존 DFT 코드에 간단히 플러그인 형태로 적용 가능, (3) 70여 원소와 다양한 화학 환경을 포괄하는 전이성을 보유, (4) 힘과 응력 텐서까지 직접 제공해 MLFF 훈련 및 대규모 분자·재료 시뮬레이션에 바로 활용 가능하다는 점이다. 또한, β 파라미터만 조정하면 다른 교환‑상관 함수와도 호환되므로, 사용자는 기존 DFT 워크플로우를 크게 변경하지 않아도 된다. 한계점으로는 (i) 음전하와 고전도성 금속에 대한 데이터 부족, (ii) 절단 반경 4 Å가 제한적일 수 있어 장거리 전하 전달이 중요한 시스템에선 추가적인 모델링이 필요함을 들 수 있다. 향후 연구 방향은 (a) 더 다양한 전하 상태와 금속·반도체 시스템을 포함한 훈련 데이터 확대, (b) 동적 절단 반경 및 다중 스케일 메시지 패싱 구조 도입, (c) β 파라미터 자동 최적화 기법 개발, (d) MBD‑ML을 기반으로 한 전이학습(transfer learning) 모델을 구축해 특정 분야(예: 배터리 전극, 촉매 표면)에서 더욱 높은 정밀도를 달성하는 것이다. 결론적으로, MBD‑ML은 전통적인 MBD‑NL의 물리적 정확성을 유지하면서도 전자구조 계산을 완전히 배제함으로써, 대규모 재료 데이터베이스 구축, 머신러닝 포스필드 개발, 그리고 실시간 vdW 보정이 필요한 다양한 응용 분야에 혁신적인 도구가 될 것으로 기대된다.

머신러닝으로 구현한 다체 분산 모델 MBDML

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기