Please enable JavaScript in your browser.

Materials Informatics特集 #6:分子動力学シミュレーションの未来を拓く!高精度NNP自動生成技術「GeNNIP4MD」 - fltech - 富士通研究所の技術ブログ

fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

Materials Informatics特集 #6:分子動力学シミュレーションの未来を拓く!高精度NNP自動生成技術「GeNNIP4MD」

はじめに

こんにちは、富士通研究所 コンピューティング研究所の松村直樹です。先日、弊社が開発している分子動力学(Molecular Dynamics: MD)シミュレーション向けニューラルネットワーク力場の自動生成ツールGeNNIP4MD (Generator of Neural Network Interatomic Potential for Molecular Dynamics) が、材料系の国際論文誌Journal of Chemical Theory and Computation (JCTC) に掲載されました。そこで今回のMaterials Informatics特集 #6では、その論文内容についてご紹介します。GeNNIP4MDを活用することで、AIや分子シミュレーションの専門知識がなくても、高精度なシミュレーションを実現するニューラルネットワーク力場を簡単に作成することができます。

※ JCTC論文URL:https://doi.org/10.1021/acs.jctc.4c01613

前回のMaterials Informatics特集 #5では、機械学習ポテンシャル (MLIP) について、その概要と技術詳細をご紹介しました。ご興味のある方は下記のリンクをご参照ください。

論文紹介

MDシミュレーションは、材料科学、化学、生物学など幅広い分野で、物質の性質を原子レベルで理解するための強力なツールです。新薬開発におけるタンパク質の挙動解析から、高性能材料の設計まで、その応用範囲は多岐にわたります。近年、MDシミュレーションの精度と計算効率を飛躍的に向上させる技術として、ニューラルネットワーク力場(Neural Network Potential: NNP) が注目されています。しかし、NNPの構築には専門的な知識と労力がかかり、また、長時間のシミュレーションにおける安定性も課題でした。

今回ご紹介する論文「Generator of Neural Network Potential for Molecular Dynamics: Constructing Robust and Accurate Potentials with Active Learning for Nanosecond-Scale Simulations」では、これらの課題を克服する新しい技術を提案しています。これらの技術は、弊社が開発しているソフトウェアGeNNIP4MDに搭載されており、GeNNIP4MDを活用することで高精度なNNPをほぼ自動で生成できます。

NNPの課題:精度と安定性の両立

NNPは、第一原理計算に匹敵する精度を持ちながら、MDシミュレーションを大幅に高速化できるというメリットがあります。これは、NNPがあらかじめ訓練した原子間の相互作用を、高速な計算処理が可能な近似モデルとして表現できるためです。しかし、NNPの性能は訓練データに大きく依存します。特に長時間のMDシミュレーションでは、訓練データにない領域への逸脱による不安定化が問題となっています。

具体的には、以下のような課題があります。

  • 訓練データの偏り:第一原理分子動力学 (ab initio MD: AIMD)シミュレーションだけで収集した構造データセットでは、シミュレーション中に現れる様々な原子配置の構造を網羅することが困難です。
  • 未知領域での精度低下:MDシミュレーション中に訓練データに存在しない原子配置が現れると、NNPの予測精度が低下し、物理的にありえない状態が発生してシミュレーションが破綻する恐れがあります。
  • 長時間の安定性:材料科学の研究では、ナノ秒、マイクロ秒といった長時間スケールでのシミュレーションが必要となる場合が多いです。しかしながら、従来のNNPでは、前述した未知領域における精度低下により、長時間のシミュレーションを安定的に実行することが困難でした。

自動NNP生成技術 (GeNNIP4MD) とは?

本論文で提案しているのは、能動学習 (Active Learning: AL) を活用したNNP生成手法 です。GeNNIP4MDと名付けたNNP生成ツールの概要を図1に示します。

図1.GeNNIP4MDの概要

GeNNIP4MDは、以下の機能を統合的に提供し、NNPの構築プロセスを大幅に効率化します。能動学習によるデータ生成を複数回繰り返し (イテレーション)、高精度なNNPを構築します。

  • 初期データセットの自動作成
    • AIMDシミュレーション:量子力学に基づいた正確な計算をベースにMDシミュレーションを行い、様々な温度条件下での原子配置データを取得します。
    • ランダム変位サンプリング:初期構造の原子位置をランダムに摂動させ、多様な構造を生成します。
  • 自動化されたNNPのトレーニング
    • DeepPot-SE[1]、PaiNN[2]、M3GNet[3]といった代表的なNNPモデルをサポートしています[※]。(※論文執筆時。現在はCHGNet[4]もサポート)。
    • Open Catalyst Project[5,6]やMaterials Project[7]などの公開データセットで事前学習されたモデルの利用も可能です。これにより、イテレーションの初期段階から高い精度のNNPを実現できます。
    • ユーザーによるハイパーパラメータの調整も可能で、対象とする系に最適なNNPを構築できます。
  • 構造空間の探索と構造サンプリング
    • NVT、NPTアンサンブルでのNNP-MDシミュレーションを活用し、平衡状態近辺の構造をサンプリングします。
    • 非平衡状態の構造をサンプリングするために、非平衡分子動力学 (Non-Equilibrium Molecular Dynamics: NEMD) シミュレーションをサポートしています。また、NNPを用いたNNP-NEMDシミュレーションでは、シミュレーションセル(または計算セル)の体積や原子位置を強制的に変化させることで、通常は現れにくい、高圧縮状態や膨張状態、短い原子間距離を持つ不安定な構造を効率的にサンプリングできます。
  • 高精度なスクリーニング
    • モデルアンサンブルに基づく方法 (Query-By-Committee):複数のNNPモデルの力の予測値のばらつき、つまりモデルの予測に対する不確実性の度合いを指標とし、その不確実性が高い構造を優先的に選択します。
    • 構造的特徴に基づく方法:原子構造をNNPモデルに入力した際に得られる中間層の特徴量(中間特徴量)に基づき、既存のデータセットとの類似性を算出します。高次元の構造情報を、PCAなどの次元削減手法を用いて特徴量マップ上に写像することで、多様な構造データを効率的に選択できます。
  • ラベリング
    • スクリーニングステップで選択された構造に対して、VASP、Quantum ESPRESSO、CPMDといった代表的なDFT計算パッケージを用いて第一原理計算を実行し、エネルギー、力、応力といったラベルを付与します。
    • 計算コストを考慮し、構造ごとに異なるDFT設定を適用することも可能です。

GeNNIP4MDの最大の特徴は、不安定な構造を積極的にサンプリングし、それをNNPの訓練データに組み込むことで、長時間のNNP-MDシミュレーションの安定性を飛躍的に向上させている点です。従来のNNP構築手法では、シミュレーション中に未知の原子配置が現れると予測精度が低下し、シミュレーションが破綻するリスクがありましたが、本技術では、あらかじめ不安定な構造をNNPに学習させることで、そのようなリスクを大幅に低減できます。

有機材料への適用事例

GeNNIP4MDを2種類の有機材料(プロピレングリコール (Propylene Glycol: PG) とポリエチレングリコール (Polyethylene Glycol: PEG))に適用し、その有効性を検証しました。GeNNIP4MDによるNNP生成に用いた系と、実際の物性値を算出するためのMDシミュレーションで用いた系を図2に示します。これらの構造はRadonPy[8]を用いて生成しました。

図2.対象の系。PG: (a)NNP生成用と(b)物性値算出用、 PEG: (c)NNP生成用と(d)-(i)物性値算出用

プロピレングリコール (PG)

GeNNIP4MDの実行条件は以下の通りです (詳細は論文をご参照ください)。

  • GeNNIP4MDの初期構造として、10個のPG分子を配置した系 (図2(a): 130原子) を使用。
  • NNPにはDeepPot-SEを使用し、LAMMPSでNNP-MDシミュレーションを実行。
  • 第一原理計算にはCPMDを利用し、D2補正を適用。
  • AIMDシミュレーションで初期データセットを2000点生成。
  • 11回GeNNIP4MDのイテレーションを実行し、計10497点のデータを生成。

GeNNIP4MDで生成したNNPモデルを用いて、216個のPG分子を含む大規模な系 (図2(b): 2808原子) に対して、21 nsのNNP-MDシミュレーション (NPTアンサンブル) を実行し、PGの物性値を求めます。

まずはシミュレーションの安定性について評価します。 安定性の評価には、Query-By-Committeeアプローチを用いた、複数のNNPモデルによる力の予測値のばらつき[9]を指標に使用しました。(複数のNNPモデルは、初期化時のシード値が異なっており、同じ訓練データセットに対して訓練されますが、異なる訓練結果になります。)

図3にNNP-MDシミュレーション中の密度変化 (上図) と力の予測値のばらつき (下図) を示します。力の予測値のばらつきが小さいほど、NNP-MDシミュレーションは安定していると言えます。図3(a)は、NVTとNPTアンサンブルのみで構造を収集したデータセットで訓練したNNPモデルのシミュレーション結果を示しています。2つのNNPモデルでは、NNP-MDシミュレーションの最初の段階から力の予測値のばらつきが大きくなっており(=安定性が悪化しており)、密度も大きく変動しています。

図3.NNP-MDシミュレーションの密度と安定性の変化

これを解決するため、NVTとNPTアンサンブルに加えて、より不安定な構造を取得できるNNP-NEMDシミュレーションを実行して構造を収集しました。図3(c)は、そのデータセットで訓練したNNPモデルのシミュレーション結果を示しており、力の予測値のばらつきが非常に小さくなっており、安定性が格段に向上していることがわかります。

この安定性が向上したモデルで、PGの物性値を評価しました。表1に物性値の評価結果を示します。評価した物性値は、表1の2列目から順に密度 (ρ)、自己拡散係数 (D)、熱膨張係数 (αP)、等温圧縮率 (βT)となります 。既存手法であるOPLS、CHARMM27、GAFFは有機材料向けの経験的ポテンシャル、PG_FFM[10]はPG向けにチューニングされた経験的ポテンシャルであり、これらの物性値は文献[10]から引用しました。

表1.PGの物性値比較

密度については、CHARMM27以外の力場では精度良く予測できています。自己拡散係数と等温圧縮率は、PG_FFMが実験値と非常によく一致しています。PG_FFMはPG向けにチューニングされているため、密度、自己拡散係数について、実験値を高精度に再現できます。しかしながら、PG向けのチューニングには一般的に多大な手間がかかります。一方、GeNNIP4MDで生成したNNPモデルは、密度、自己拡散係数、熱膨張係数、等温圧縮率の全ての物性値について、実験値を非常に良く再現していることがわかります。特筆すべきは、GeNNIP4MDによるNNPモデル生成では、PG_FFMのような職人技による経験的ポテンシャル作成を必要としない点です。

このようにGeNNIP4MDを活用することで、液体のPGの構造とダイナミクスを高精度に再現できることを確認しました。

ポリエチレングリコール (PEG)

GeNNIP4MDの実行条件は以下の通りです (詳細は論文をご参照ください))。

  • GeNNIP4MDの初期構造として、4-merのPEG分子を5つ配置した系 (図2(c): 155原子) を使用。
  • NNPにはDeepPot-SEを使用し、LAMMPSでNNP-MDシミュレーションを実行。
  • 第一原理計算にはQuantum ESPRESSOを利用し、D3補正を適用。
  • PGと同様のワークフローでGeNNIP4MDを実行し、計10105点のデータを生成。

GeNNIP4MDで生成したNNPモデルを用いて、4-merから8-merまでの異なる重合度のPEG分子 (図2(d)-(h)) に対して、21ナノ秒のNNP-MDシミュレーション (NPTアンサンブル) を実行し、PEGの物性値を求めました。図4に実験値に対する密度と自己拡散係数の比較結果を示します。

図4.PEGの物性値比較 (a)密度, (b)自己拡散係数

OPLS4は経験的ポテンシャル、QRNN[11]は機械学習ポテンシャルです。OPLS4の物性値は文献[11]から引用しています。OPLS4は密度の再現性が非常に高いものの、自己拡散係数を著しく過小評価しています。一方、QRNNは密度と自己拡散係数を非常に良く再現しています。GeNNIP4MDで生成したNNPモデルは、密度は問題なく再現(誤差3%以内)、自己拡散係数も実験値をかなり良く再現していることがわかります。QRNNは電荷を考慮した機械学習ポテンシャルを活用し、手動でデータ点を選択しながらデータセットを構築していますが、GeNNIP4MDでは、それらの手間が全て自動化されており、計算機に処理を任せるだけで高精度なNNPモデルを生成できます。

21ナノ秒という長時間のシミュレーションにおいても、安定した高精度なシミュレーションが可能であることを確認しました。

これらのPGとPEGの結果から、GeNNIP4MDが様々な有機材料に対して安定性の高いNNPを自動的に生成できることが示唆されました。

まとめ:分子シミュレーションの可能性を広げる強力なソリューション

本論文では、長時間の安定かつ高精度なシミュレーションを実現できる、自動NNP生成ツール (GeNNIP4MD) を提案しました。

  • NNP構築の自動化: 専門知識や経験がなくても、高精度なNNPを効率的に構築できます。これは、AIの専門家ではない研究者はもちろん、分子シミュレーションの専門家ではない研究者にとっても、非常に大きなメリットとなります。
  • シミュレーションの安定性向上: 長時間のMDシミュレーションが可能になり、より複雑な現象 (高分子の絡み合い、材料の破壊など) の解析に貢献します。
  • 材料開発の加速: 新規材料の探索や特性評価を、シミュレーションによって効率的に行うことができます。これにより、実験による試行錯誤を減らし、開発期間を大幅に短縮できます。

この技術は、有機材料だけでなく、無機材料、さらには生物系の分子にも適用可能であり、様々な分野での応用が期待されます。例えば、以下のような応用が考えられます。

  • 高分子材料設計:機械的特性や熱的特性の予測
  • 触媒設計:反応機構の解明や触媒活性の予測
  • 界面設計:界面のダイナミクスの解明や力学特性の予測
  • エネルギー材料開発:電池材料の伝導性予測や太陽電池材料の変換効率予測

GeNNIP4MDは、シミュレーションの可能性を大きく広げる強力なソリューションです。皆様の研究開発における課題解決に向けて、まずは下記お問い合わせ先からお気軽にご相談ください。GeNNIP4MDがどのように貢献できるか、共にご検討させていただきます。お問い合わせをお待ちしております。

参考文献

[1] Zhang, L. et al., End-to-End Symmetry Preserving Inter-Atomic Potential Energy Model for Finite and Extended Systems. In Advances in neural information processing systems; Curran Associates, Inc.,2018; Vol. 31.
[2] Schutt, K. et al., Equivariant Message Passing for the Prediction of Tensorial Properties and Molecular Spectra. In Proceedings of the 38th International Conference on Machine Learning; PMLR, 2021; pp9377−9388.
[3] Chen, C. et al., Universal Graph Deep Learning Interatomic Potential for the Periodic Table. Nat. Comput. Sci. 2022, 2 (11), 718−728.
[4] Deng, B. et al., CHGNet as a Pretrained Universal Neural Network Potential for Charge-Informed Atomistic Modelling. Nat. Mach. Intell. 2023, 5 (9),1031−1041.
[5] Chanussot, L. et al., Open Catalyst 2020 (OC20) Dataset and Community Challenges. ACS Catal. 2021, 11 (10), 6059−6072.
[6] Tran, R. et al., The Open Catalyst 2022 (OC22) Dataset and Challenges for Oxide Electrocatalysts. ACS Catal. 2023, 13 (5),3066−3084.
[7] Jain, A. et al., The Materials Project: A materials genome approach to accelerating materials innovation. APL Materials 2013, 1, 011002.
[8] Hayashi, Y. et al., RadonPy: Automated Physical Property Calculation Using All-Atom Classical Molecular Dynamics Simulations for Polymer Informatics. npj Comput. Mater. 2022, 8 (1),No.222.
[9] Zhang, Y. et al., DP-GEN: A Concurrent Learning Platform for the Generation of Reliable Deep Learning Based Potential Energy Models. Comput. Phys. Commun. 2020, 253,No.107206.
[10] Ferreira, E. et al., New Force Field Model for Propylene Glycol: Insight to Local Structure and Dynamics. J.Phys. Chem. B 2017, 121 (48), 10906−10921.
[11] Mohanty, S. et al., Development of Scalable and Generalizable Machine Learned Force Field for Polymers. Sci. Rep. 2023, 13 (1),No.17251.

お問い合わせ

本技術にご興味をお持ちの方は、以下の連絡先までお気軽にお問い合わせください。

  • 連絡先:fj-mi-tech-contact@dl.jp.fujitsu.com
  • お問い合わせ内容:資料請求、技術紹介、PoC検証 (技術の試用、自社材料への適用を希望される方) など、様々なご要望に対応いたします。