はじめに
こんにちは、富士通研究所コンピューティング研究所の岩崎です。今回の記事では材料科学や化学の世界で注目を集めている機械学習原子間ポテンシャル(Machine Learning Interatomic Potential, MLIP)についてご紹介します。MLIPは、これまでの実験的手法に頼っていた材料の開発や設計を大きく変革する可能性を秘めています。
もし既にMLIPをご存じの方は、前回の記事で弊社の山﨑が「数あるMLIPの中でどのMLIPを利用すれば良いのか?」について詳しく紹介しているため、そちらをご一読ください。
この記事では「MLIPとは何なのか?」という疑問について、2025年1月に出版されたレビュー論文「A practical guide to machine learning interatomic potentials – Status and future」[1]を引用しながら詳しく説明していきます。この論文は、AIの専門家ではないが、分子モデリングの知識を持つ研究者を対象としており、MLIPを利用してみたい方にとって非常に役立つ内容です。この記事を読んで少しでも興味を持っていただけたら、ぜひ一度論文もご覧になってみてください。
本論文の目次は以下の通りです。
- Introduction
- A list of MLIPs
- What makes MLIPs so exciting?
- Understanding the types of MLIPSs - basic formalisms
- Universal MLIPs
- Execution (Inference) speed of MLIPs
- MLIP choices - what should i use when?
- MLIP infrastructure
- Limits of standard MLIPs and advanced MLIPs to overcome those limits
- The future of MLIPs
今回の記事では、論文の1章から4章についてお話しします。その他の章については次以降の記事で触れる予定ですが、まずはMLIPの基礎的な部分を理解することから始めましょう。
MLIPとは
MLIPとは、原子間の相互作用を予測するためのAIモデルで、材料シミュレーションなどに用いることができます。MLIPは、各原子の位置と元素の種類を入力として受け取り、その原子の集合に対するポテンシャルエネルギーを出力します。このポテンシャルエネルギー曲面を空間微分することで、原子に働く力を算出することが可能です。また、エネルギーだけではなく、原子に働く力を直接出力するMLIPもあります。
MLIPを用いた分子動力学(Molecular Dynamics, MD)シミュレーションでは、原子に働く力の予測と原子位置の更新を繰り返すことで、材料の特性を高精度に予測することができます。これにより、化学反応の理解や金属合金の設計、さらには新薬の開発など、幅広い応用が可能になります。
MDシミュレーションの歴史
MDシミュレーションは、歴史的に2つの異なる手法で行われてきました。一つは第一原理MD(ab initio MD, AIMD)です。この手法は高い精度のMDシミュレーションが可能で、構造特性や熱力学特性、輸送特性の研究に利用されてきました。もう一つは物理ベースポテンシャル(Physic-based Potential, PBP)を用いた古典MDです。この手法はAIMDよりも大規模な系でのMDシミュレーションが可能であり、原子間の相互作用が多様な現象を引き起こす様子を定性的に研究することができます。
しかし、AIMDは計算コストの制約から、現象を観測するために必要な原子数の大きい系に適用するのが困難です。また、PBPを用いた古典MDは、特定の材料で十分な精度のシミュレーションが難しいという課題がありました。MLIPは、その両者の隔たりを埋めることができます。MLIPは、AIMDに近い精度を持ちながら、PBPを用いた古典MDのような大規模な系でのシミュレーションを可能にします。MLIPを用いたMDは、AIMDより桁違いに短い時間で実行可能です。その結果、MLIPを利用することで、AIMDでは困難だった空間スケールや時間スケールにおける新しい物理領域の研究が可能になると期待されています。
MLIPの種類と分類
MLIPは多くの種類があります。以下に本論文で紹介されているいくつかのMLIPを抜粋します。
- Behler-Parrinello Neural Network, BP-NN [2]
- Gaussian Approximation Potential, GAP [3]
- Deep Molecular Dynamics, DeePMD [4]
- Three-body Materials Graph Network, M3GNet [5]
これらのMLIPはそれぞれ異なる方法で原子間に働く相互作用をモデル化していますが、MLIPの背景にある考え方は共通です。それは、原子の位置や元素の種類、結合角などの局所環境を特徴量で表現することです。このプロセスを原子環境特徴量化(Atomic Environment Featurization, AEF)と呼びます。MLIPでは、その特徴量が回帰モデルに入力されます。そのため、回帰モデルの精度は、これらの特徴量と回帰モデルが原子の局所環境をどれだけ適切に捉えられるかに依存します。一般に特徴量のサイズが大きいほど、原子の局所環境を適切に捉えることができます。
PBPとMLIPは、それぞれ異なるアプローチで原子間ポテンシャルを表現します。PBPは少ないパラメータで物理的な法則に基づいてフィッティングを行うのに対し、MLIPは多くのパラメータを使った数値的なフィッティングを行います。ただし、これらは完全に独立したものではなく、中間的なアプローチも可能です。例えば、MLIPに原子間の反発相互作用を記述するZiegler-Biersack-Littmark項を追加することで、原子が非常に近い距離になった場合に非物理的な挙動を防ぐことができます。
MLIPの分類
この論文では、AEF化に対するアプローチの違いから、MLIPを明示的AEF型MLIPと暗黙的AEF型MLIPの2つに分類しています。明示的AEF型MLIPでは、事前に用意した特定の関数形を利用し、原子の局所環境を数値ベクトルに変換し、暗黙的AEF型MLIPでは、データから原子の局所環境の表現を学習します。
明示的AEF型MLIP
明示的AEF型MLIPでは、事前に用意した特定の関数形で原子の局所環境を表現します。まず、各原子が元素の種類とその局所環境(近傍の原子の位置と元素の種類)によって与えられるエネルギーを持つと仮定します。ターゲット原子のAEFは、周囲にある原子の位置と元素の種類を基にして密度関数として記述し、この密度関数を動径関数と角度関数を用いて展開することで構築します。動径関数は原子間の距離に基づき、角度関数は原子間の角度に基づいています。これにより、ターゲット原子の局所環境が数値で表現されます。最後に回帰モデルによってエネルギーを予測し、原子ごとのエネルギーを足し合わせることでポテンシャルエネルギーを算出します。
この特徴量の表現力が豊かであるほど、回帰モデルは原子の局所環境をより正確に捉えることができます。AEFにより、原子の局所環境が特徴量として得られ、回帰モデルの入力として利用されます。回帰モデルとしては、線形回帰やガウス過程回帰、ニューラルネットワークなどが利用されます。一般的にMLIPの訓練対象はエネルギーや力、応力であり、これらは第一原理計算により取得できます。
明示的AEF型MLIPの一例として、BP-NN [2] やGAP [3] があります。BP-NNは、原子中心対称関数をAEFとして利用し、線形層のみから構成されるフィードフォワードニューラルネットワークを回帰モデルとしてエネルギーを予測します。一方、GAPは、SOAP記述子(Smooth Overlap of Atomic Positions, SOAP)を利用してAEFを構築し、スパースガウス過程回帰モデルを用いてエネルギーを予測します。
これらのMLIPは、原子の局所環境を詳細に捉えることができるため、複雑な化学変化や相互作用をモデル化する際に非常に有効です。しかし、各元素に対して基底関数を用意する必要があるため、元素の数が多い場合に計算コストが急激に増加するというスケーリングの問題があります。そのため、ほとんどの明示的AEF型MLIPでは、計算できる元素の数は約5以下に制限されます。
暗黙的AEF型MLIP
暗黙的AEF型MLIPは、事前に特徴量の表現方法を定義するのではなく、データから原子の局所環境の表現を学習します。言い換えると、それぞれの元素ごとに基底関数を用意するのではなく、化学空間を異なる元素を効率的に表現できる学習済み特徴量に埋め込みます。このアプローチが効果的な理由は、元素の特性が独立ではないためと考えられています。
暗黙的AEF型MLIPの代表的なアプローチとして、グラフニューラルネットワーク(GNN)が挙げられます。GNNはグラフというデータ構造を扱うニューラルネットワークであり、グラフはノードとエッジで構成されます。ノードは原子、エッジは近傍の原子との結合にマッピングされ、グラフは原子間の相互作用がどのように局所的に発生しているかを表現します。GNNでは、グラフの構造を利用してノードやエッジの特徴量を更新するため、相互作用する原子を表現するのに適した方法と考えられています。
暗黙的AEF型MLIPの一例として、前述のGNNを使用して原子間の相互作用をモデル化するM3GNet [4] があります。GNN以外を利用するMLIPとして、DeePMD [5] で利用されるDeep Potential [6] があります。Deep Potentialは、原子の距離と角度、元素の種類の情報に基づいて、原子の局所環境を深層ニューラルネットワークを利用して表現します。私たちのグループでは、このM3GNetとDeep Potentialを自動で訓練するMLIP生成フレームワークGeNNIP4MDを開発しています。その詳細については、こちらの記事を参考にしてください。
これらM3GNetなどの暗黙的AEF型MLIPは、明示的AEF型MLIPに関連する元素の数のスケーリングの問題が改善しています。しかし、より複雑な機械学習のアーキテクチャを利用するため、計算コストが高く、特に訓練や推論において時間や計算資源を必要とする可能性があります。
さいごに
今回の記事では、「MLIPとは?」という基本的な問いから始まり、MLIPの種類やそれぞれの仕組みについてご紹介しました。MLIPには複数の課題があり、その一つが外挿性です。特定の材料系の限られた領域のデータで訓練されたMLIPは、訓練データに存在しない新しい元素や局所構造における予測が困難です。特に、ほとんどの明示的AEF型MLIPでは元素数に制限がありましたが、暗黙的AEF型MLIPの登場により、多くの元素数に対応できるようになりました。この進展により、周期表の大部分をカバーする汎用的なMLIPの開発が活発化しています。そのため、次の記事では、「汎用MLIPとは?」について詳しく解説する予定です。
この論文の著者は、この分野で世界トップの研究者たちであり、企業や研究室が切磋琢磨しながらMLIPの開発や応用に取り組んでいます。その知識や経験がこのガイドにぎっしり詰まっています。少しでも興味を持たれましたら、ぜひ論文をご参照ください。
ここまで読んでいただき、ありがとうございました。次回の記事も、是非ご覧になっていただけると嬉しいです!
お問い合わせ
本技術にご興味をお持ちの方は、以下の連絡先までお気軽にお問い合わせください。
連絡先:fj-mi-tech-contact@dl.jp.fujitsu.com
お問い合わせ内容:資料請求、技術紹介、PoC検証(技術の試用、自社材料への適用を希望される方)など、様々なご要望に対応いたします。