はじめに
こんにちは、富士通研究所コンピューティング研究所の岩崎です。今回の記事では材料科学や化学の世界で注目を集めている汎用機械学習原子間ポテンシャル(Universal Machine Learning Interatomic Potential, U-MLIP)についてご紹介します。U-MLIPは、この分野で最も活発に研究が進められており、材料の開発や設計においてブレイクスルーとなる可能性を秘めています。
この記事では「汎用MLIPとは?」という疑問について、2025年1月に出版されたレビュー論文「A practical guide to machine learning interatomic potentials – Status and future」[1]を引用しながら詳しく説明していきます。この論文は、AIの専門家ではないが、分子モデリングの知識を持つ研究者を対象としており、MLIPを利用してみたい方にとって非常に役立つ内容です。この記事を読んで少しでも興味を持っていただけたら、ぜひ一度論文もご覧になってみてください。
論文の構成は次の通りとなっています。
- Introduction
- A list of MLIPs
- What makes MLIPs so exciting?
- Understanding the types of MLIPs - basic formalisms
- Universal MLIPs
- Execution (Inference) speed of MLIPs
- MLIP choices - what should i use when?
- MLIP infrastructure
- Limits of standard MLIPs and advanced MLIPs to overcome those limits
- The future of MLIPs
今回の記事では、汎用MLIPについて記載された論文の5章についてお話しします。
なお、MLIPの背景といった基本的なことが記載された論文の1章から4章については、以前のブログ記事にてご紹介しています。そちらを先にご参照していただければ今回の記事の内容も深く理解できますので、是非ご参照していただけると嬉しいです!
U-MLIPとは
まず、MLIPとは、原子間の相互作用を予測するためのAIモデルで、材料シミュレーションなどに用いることができます。U-MLIPとは、幅広い元素種や材料をカバーすることを目的としたポテンシャルです。U-MLIPでは、多くの元素種や状態のデータを訓練に利用することで、化学的および構造的に複雑なシステムを扱うことを可能にします。U-MLIPの研究が進めば、単一のU-MLIPを用いてあらゆる原子の動きを正確にシミュレーションし、材料の物性を把握することが可能になります。このような汎用性の高いモデルの開発を研究目的としています。
このポテンシャルの開発には、広範なデータセットの構築と機械学習技術を活用したモデルのアーキテクチャの開発が不可欠です。現在のU-MLIPの研究は、より多くの元素種をカバーし、より高い精度で原子の動きや材料の物性を予測することを目指して進められています。
MLIPの分類
従来のMLIPは、特定の材料や化学系に特化していましたが、U-MLIPはより多くの元素や状態を扱うことができるように設計されています。数種類の元素種をカバーしたポテンシャルは、T-MLIP(Target Machine Learning Interatomic Potential)と呼ばれています。T-MLIPにおいて、広く採用されてきた明示的AEF型MLIPは、元素種が増えると計算コストが急増するため、元素種を増やすことが困難でした。しかし、暗黙的AEF型MLIPの登場とその発展により、多くの元素種に対応することが可能になりました。このMLIPの分類やそれぞれの特徴について知りたい方は以前のブログ記事をご参照ください。U-MLIPとT-MLIPの中間として、SU-MLIP(Semi Universal Machine Learning Interatomic Potential)があります。
- T-MLIP: 1から10の元素種をカバーし、特定の材料や化学系に特化しています。これにより、特定の材料や化学系において高い精度を提供します。
- SU-MLIP: 特定の材料ドメインに焦点を当てており、そのドメインに属する10から50程度の元素種をカバーします。これにより、特定のドメインに属する材料において高い精度を提供します。
- U-MLIP: 50以上の元素種をカバーし、幅広い元素種に対応しています。これにより、化学的および構造的に複雑なシステムを扱うことも可能になります。
現状のMLIPは、モデルが対応できる元素種と予測精度にトレードオフが存在します。そのため、T-MLIPは高い予測精度を実現できますが、対応できる元素種は限定されます。一方で、U-MLIPは幅広い元素種に対応可能ですが、予測精度はT-MLIPに劣ります。
T-MLIPについては、以前のブログ記事にて、弊社の吉本が紹介をさせていただきました。このブログ記事では、弊社のMLIPの自動生成ツール GeNNIP4MD を利用して、燃料電池の固体電解質膜として利用されるナフィオンを対象としたMLIPを開発し、それが実験値と良い一致を示すことを検証しました。加えて、プロトン輸送現象をシミュレーションにより再現したことを確認しました。詳細は以前のブログ記事をご参照ください。
以下に、SU-MLIPとU-MLIPの代表的なモデルを紹介します。
SU-MLIP
- Atoms-In-Molecules Network 2, AIMNet2 [2]: 分子および高分子構造を対象としており、中性および電荷を有する状態での14の元素種を含む種に適用可能です。AIMNet2を用いることで、非金属化合物の大部分をモデル化することができます。
- Elemental Spatial Density Neural Network Force Field, Elemental-SDNNFF [3]: 55の異なる元素を構成するHeusler合金の力とフォノン特性の正確な予測が可能です。Elemental-SDNNFFを用いることで、Heusler合金の特性を詳細に解析することができます。
- SuperSalt Potential [4]: 11の陽イオンMのMCl溶融塩をモデル化し、これらの材料に対して既存のU-MLIPよりも大幅に正確な物性値の予測が可能です。SuperSalt Potentialを用いることで、溶解塩の特性を正確にシミュレーションすることができます。
U-MLIP
- 3-body Materials Graph NETwork, M3GNet [5]: 89の元素をカバーしており、固体層に強いバイアスはありますが、特に制約なしに適用可能です。
- MACE-MP0 [6]: CHGNetと同様のデータで訓練されており、多くの材料で安定したMDシミュレーションを実行した例があります。
- Crystal Hamiltonian Graph Neural Network, CHGNet [7]: 各原子の磁気モーメントを明示的に埋め込んでいるため、価電子の電子的効果を考慮できます。
これ以外にも、Unified atomistic line graph neural network-based force field, ALIGNN-FF [8]などのU-MLIPがあります。U-MLIPは、研究目的や対象とする材料に合わせて選択する必要があります。
次からは、本記事のメイントピックであるU-MLIPの適用例なモデル性能などの詳細について解説します。
U-MLIPの適用例
代表的なU-MLIPであるCHGNet, M3GNetおよびAIMNet2は、様々な材料の物性予測に利用されています。例えば、CHGNetは固体電解質膜におけるリチウムイオン拡散率の算出に、M3GNetは熱力学的安定性の算出に、AIMNet2はタンパク質構造の最適化に用いられています。このようにU-MLIPは適用範囲が広く、様々な材料の物性を予測する能力を有しています。
U-MLIPはDFT計算より計算コストが劇的に低いため、DFT計算の代わりにU-MLIPを利用することです。以下に3つの例を示します。
- DFT計算の高速化: DFT計算の前処理としてU-MLIPを用いることで、計算時間を劇的に短縮できます。例えば、DFT計算に用いる初期構造をU-MLIPで最適化することで、より平衡状態に近い構造からDFT計算を開始できるため、DFT計算の収束を早めることが可能です。
- 大規模系の計算: U-MLIPを用いたMDシミュレーションは、計算コストの制約からDFT計算を用いるAIMDでは扱えなかった大規模系や長時間のシミュレーションを可能にします。これにより、AIMDでは困難だった現象の解析や物性評価が可能になります。
- ハイスループットスクリーニング: U-MLIPは、DFT計算よりもはるかに高速にイオン伝導率といった物性予測が可能であるため、膨大な材料候補の中から有望な材料を効率的にスクリーニングできます。
U-MLIPの訓練データ
U-MLIPは、基礎となるMLIPのアーキテクチャの進歩に加え、大規模なデータベースの成長によって実現されました。U-MLIPの訓練データ数は、毎年桁違いに増加しており、このまま増加が続いた場合、2025年には数十億のデータで訓練されたU-MLIPが登場する可能性があります。U-MLIPの訓練データ数が増えるほど、一般的により多様な構造が含まれるため、より多くの元素種に対して高い予測精度を実現することができます。
現在、利用できるU-MLIPは、様々なデータベースで訓練されています。これらのデータベースには、DFT計算やAIMDシミュレーションの結果が含まれ、各構造に対応するエネルギーと力が格納されています。
U-MLIPの比較
レビュー論文のFig. 5をご参照ください。M3GNet、CHGNet、MACE-MP0の物性値予測性能を比較すると、バルクと表面の全エネルギーに関しては、これら3つのU-MLIPは正確に再現できています。これは、これらのU-MLIPの訓練データセットであるMaterials Projectに、バルクと表面の全エネルギーのデータが含まれているためです。 しかし、表面エネルギーに関しては予測誤差が生じています。これは表面エネルギーのデータが、訓練データのMaterials Projectに含まれていないためです。そのため、これらのU-MLIPを用いて表面の特性評価を行うためには、さらなるデータの追加やモデルの改善が必要となります。各モデルの表面エネルギーの推定値と真値(DFT計算結果)の残差を比較すると、モデルのアーキテクチャの違いによって、残差の分布や外れ値の数が異なっています。
私たちは、MDシミュレーションに用いるニューラルネットワークポテンシャルを自動的に生成するツール、GeNNIP4MDを開発しています(GeNNIP4MDの詳細はこちらの記事をご参照ください)。GeNNIP4MDは、事前学習済みモデルであるM3GNetとCHGNetに追加データを学習させて、ポテンシャルの精度や安定性を向上させるファインチューニングの機能を実装しています。そのため、GeNNIP4MDを活用して、M3GNetやCHGNetを表面エネルギーのデータでファインチューニングすることで、表面エネルギーの予測精度を改善することが可能となります。
さいごに
今回の記事では、「汎用MLIPとは?」という問いから始まり、その分類や適用例、それぞれのモデルの特徴についてご紹介しました。もし、あらゆる原子の動きを正確にシミュレーションできるU-MLIPが完成した場合、これまでのAIMDでは実現できなかった時間スケールや大規模な系でのMDシミュレーションが、周期表のほぼすべての元素で可能になります。これは、材料や素材の開発におけるブレークスルーとなる技術です。しかし、現在では対応する元素の数や実行速度、正確性などに制限があり、研究の目的やターゲットの材料に沿ったU-MLIPを選択する必要があります。次回の論文紹介記事では、「どのMLIPを選べばよいのか?」について詳しく解説する予定です。
お問い合わせ
ご紹介したGeNNIP4MDによるMLIPの開発や、富士通のマテリアルズインフォマティクス技術にご興味をお持ちの方は、以下の連絡先までお気軽にお問い合わせください。
連絡先:fj-mi-tech-contact@dl.jp.fujitsu.com
お問い合わせ内容:資料請求、技術紹介、PoC検証(技術の試用、自社材料への適用を希望される方)など、様々なご要望に対応いたします。