はじめに
こんにちは、富士通研究所 コンピューティング研究所の藤田です。富士通研究所では、コンピューティングとAIを活用し材料探索を加速する技術(Materials Informatics, MI)の開発に取り組んでおります。今回は統計的因果探索を活用した材料発見について紹介します。前回の記事では富士通独自開発のニューラルネットワークポテンシャル自動生成ツールを用いた事例紹介をしました。ご興味がある方は以下からご一読ください。
背景
科学において観測結果を支配する根本的な法則、すなわち因果関係を特定することは核心的な課題です。因果関係とは、「風が吹くと桶屋が儲かる」のように「何か(原因)が変化すると何か(結果)が変わる」関係のことを表します。では相関関係があれば因果関係があるのか?と思うかもしれませんが、そうではありません。例えば地域ごとの警察の人数と犯罪件数に正の相関があるのですが、警察の人数を減らせば犯罪件数が減るとは考えづらいですよね?昨今データから相関のあるデータを探すことは容易になっていますが、それに人がストーリーや意味付けすることで、さも因果があるように語られがちです。しかし、それをもとに意思決定することは意図した成果につながらない可能性があります。その点客観的な因果関係の推定は思い込みを介入させず、データから分かることだけを示してくれるので、意思決定に有用です。これが因果関係を見つけることの重要性です。
因果関係の推定は材料分野においても中心的な課題です。しかし、分析技術の高度化により得られるデータが複雑化し、専門家であっても因果関係の推定は困難を極めています。そこで、統計的因果探索の技術が活用できないかと日々研究しております。材料の特定のパラメータを変化させたい時、指針となるグラフがあれば材料設計で非常に便利ですよね?
統計的因果探索とは?
統計的因果探索では、表形式のデータ(列が変数、行がそれらの変数を観測した各サンプル)から、全ての変数対における因果関係を分析します。結果をまとめた構造は因果グラフと呼ばれ、ある変数が変化したときにどの変数が影響を受けるか視覚的に理解することができます。因果グラフはしばしば構造方程式モデル(Stractural Equation Model, SEM)でモデル化され、有向非巡回グラフ(Directed Acyclic Graph, DAG)として出力されます。線形非ガウス非巡回モデル(Linear Non-Gaussian Acyclic Model, LiNGAM)はSEMの中でも基礎的な位置づけであり、理屈の上ではデータ分布から一意に因果グラフを識別できます[1]。そのLiNGAMを仮定した代表的な因果探索アルゴリズムがDirectLiNGAMです[2]。
統計的因果探索は、その他にも小サンプル下での改善手法[3]やより高速なアルゴリズムの提案[4]など、DirectLiNGAMを基盤としてより実用性や計算速度の面で進化し続けています。後者はECML-PKDDで採択され、以下のFujitsu Tech Blogでも紹介されていますのでご興味がある方はご一読ください。 Pythonパッケージもありますのでぜひ触ってみてください[5]。
独自技術:条件付き因果探索
次に因果探索技術の拡張要素について紹介します。物理現象の中には特定のパラメータ条件の時に傾向が変化する現象も多々あります。水と温度の関係などが想像しやすいでしょうか。1気圧なら100℃を超えると液体から気体に状態変化し、体積などの傾向が変わりますよね?したがって、データ全体から傾向の異なるサンプルを取り出し、それぞれで因果探索を実行して比較することで、傾向の変化点がわかると分析に役立つと思いませんか?条件付き因果探索なら可能です!
データ集合から傾向が異なるサブグループを取り出す技術として、Wide Learningという富士通独自の説明可能なAI技術があります。これは入力データから特徴的な条件を高速に列挙する技術です。この技術は、「温度>〇〇 かつ 原子半径<×× かつ ...」のように入力データ変数の条件の組合せとして出力されます。Wide Learningで発見した特徴的な条件を因果探索することで特定の条件下でしか起きない現象やその変化点を見つける研究も富士通研究所では行われています。
ワインクオリティデータの例
図2は、ワインクオリティデータ[6]に対して因果探索を実行した一例です。10段階評価されたワインの成分データに対し全サンプルの因果グラフ(左)と条件付き因果探索を行った結果のうちの1条件の因果グラフ(右)を表示しています。全サンプルでは、アルコール度数が高いほどクオリティが高く、酢酸濃度が高いとクオリティが落ちることなどが分かります。一方、低アルコール度数かつ総亜硫酸濃度が高い条件のデータでは、アルコール度数増加の影響が落ち、新たに塩化物濃度の影響が出現します。抽出された条件は、領域知識を加味すると、低アルコールワインは一般的に品質が低くなりがちなので、酸化防止剤である亜硫酸塩の添加が重要であるということを示しています。また、得られた因果グラフは、この条件のワインでは、品質向上のために塩化物濃度を低く抑えた方がよいということを示しています。このように状況に応じた提案をすることができるのです。
シミュレーションデータへの適用
ここではアンモニア生成のための合金触媒探索に対し、因果探索を適用した一例を紹介します。アンモニアは炭素を排出しないクリーンなエネルギーとして近年注目されている存在です。しかし、現状では生成のために高温高圧環境を必要とし、生成コストが高いという課題を抱えています。そこで、常温常圧でもアンモニア生成が可能な触媒の探索が行われています。私たちはアイスランドのベンチャー企業Atmonia社との共同研究で、ベースとなる金属に一部別の金属をドーピングした構造について、窒素分子やアンモニア生成の中間体の吸着エネルギーを計算したデータをDFTシミュレーションによって作成し、統計的因果探索を行いました。
図3は、窒素の吸着エネルギーに関する因果グラフの抜粋です。因果グラフ全体が大きいので、ここでは注目すべき部分だけ紹介します。窒素分子の吸着エネルギー(adsorption energy)は、ベースとなる金属の最外殻のd電子数(Base_Slab_outmost_d)に正の影響を受けていることが分かります。吸着エネルギーは、吸着に必要なエネルギー量ですが、今回は負の値として定義しているため、d電子数が増えると、吸着が弱くなることを意味します。d電子数は、元素の族番号(Base_Slab_ElementGroupNumber)が大きいほど大きくなる傾向にあります。窒素分子が強く吸着する方がアンモニア生成反応が進みやすいので、ベースとなる金属は族番号の小さいものから選択したほうがいいということになります。族番号の小さい金属は安価なものが多い点でも嬉しいですね。
おわりに
本記事では、統計的因果探索とMIへの適用事例について紹介しました。理論や証明部分など一部割愛しましたので、気になる方は論文をご確認ください。昨今の材料探索は多元系の複雑なものを対象とすることが多いため、材料中の原子ひとつ変化しただけでどれだけ性能に影響を与えるかを細かく分析しつつ、全体的な因果構造も把握して効率的に高性能材料を見つけることが我々のミッションです。分子動力学シミュレーション技術と融合させ、時々刻々と変化する原子の動きを因果グラフで表したり、実験データと照らし合わせてシミュレーションとの差を検証したりするなど、実現させたい研究がまだまだあります。私たちはこれらの課題を解決し、材料探索プロセスの加速に尽力してまいります。
お問い合わせ
本技術にご興味をお持ちの方は、以下の連絡先までお気軽にお問い合わせください。
- 連絡先:fj-mi-tech-contact@dl.jp.fujitsu.com
- お問い合わせ内容:資料請求、技術紹介、PoC検証(技術の試用、自社材料への適用を希望される方)など、様々なご要望に対応いたします。
参考文献
- [1] S Shimizu et al., "A Linear Non-Gaussian Acyclic Model for Causal Discovery", Journal of Machine Learning Research 7, Pages: 2003–2030, 2006
- [2] S Shimizu et al., "DirectLiNGAM: A Direct Method for Learning a Linear Non-Gaussian Structural Equation Model", Journal of Machine Learning Research 12, Pages: 1225–1248, 2011
- [3] S Yanashima et al., "独立性評価を用いた部分的因果構造推定による小サンプル下でのDirectLiNGAMの改善",
- [4] H Suzuki., "LayeredLiNGAM: A Practical and Fast Method for Learning a Linear Non-gaussian Structural Equation Model", ECML PKDD 2024. vol 14946.
- [5] Ikeuchi et al., "Python package for causal discovery based on LiNGAM", Journal of Machine Learning Research 24, Pages: 14:1–14:8, 2023
- [6] P. Cortez et al., "Wine Quality," UCI Machine Learning Repository, 2009. [Online]. Available: https://doi.org/10.24432/C56S3T.