
こんにちは、人工知能研究所の丸橋です。本記事はグラフAIシリーズの第3弾です。第1弾では10億ノード規模の大規模グラフをどのように学習するかを紹介しました。第2弾では、本来ブラックボックスであるグラフAIをどのように説明可能・解釈可能にするかを紹介しました。そして今回は、そのさらに先にある挑戦、「大規模グラフの背後にある現象そのものを推定する」というテーマについて、我々の取り組みを紹介します。
なぜ「背後の現象」を推定する必要があるのか
大規模グラフは、もはや人間が直接理解できる対象ではありません。10億ノード規模の大規模グラフはもちろんのこと、たとえ数百ノード、数千エッジという規模のグラフであっても、その構造は可視化してもほぼ黒い塊にしか見えません。例えば、図1では異なる状況における遺伝子間ネットワークの違いが示されています。どのノードとどのノードが接続しているかを一覧すること自体は可能であっても、その全体像から意味のある洞察を得ることは極めて困難です。しかし現実の問題は、その巨大な構造そのものを眺めることではなく、その背後で何が起こっているのかを理解することにあります。ネットワークはあくまで観測された関係の集合に過ぎません。私たちが知りたいのは、その関係を生み出している因果やメカニズム、あるいは構造的な力学です。言い換えれば、観測されたネットワークの背後にある現象を捉え、その現象を生み出しているより深い意味や原理に迫ることが本質的な問いです。図1の例では、肺がん治療薬エルロチニブが効く患者と、耐性を獲得して効かなくなった患者の遺伝子ネットワークの違いが示されています。その差異は、特定のシグナル経路の活性化などの現象として捉えられ、さらにその背後には、がんの悪性度や薬剤耐性といった意味・原理が横たわっています。近年では、大規模グラフ解析は「構造を推定する段階」から、「構造の背後にある現象を抽出する段階」へ、さらにその現象を既存の知識と接続し「意味として理解する段階」へと進みつつあります。本稿ではまず、その中間層である「現象」の抽出に焦点を当てます。ただし、単なる統計的パターンとしての現象ではなく、複数のネットワークに共通する構造を通じて、意味・原理レベルへと接続可能な現象構造を抽出することを目指します。

医療領域 遺伝子発現データ、タンパク質相互作用ネットワーク、疾患関連遺伝子、薬剤標的情報などは、すべて巨大なネットワークとして表現できます。ここで観測されているのは、遺伝子同士の共発現関係やタンパク質間の相互作用といった、統計的・構造的な関係です。しかし、そのネットワークが示しているのは単なる接続関係ではありません。その背後では、特定の分子経路の活性化、炎症応答の増強、細胞周期制御の破綻、代謝経路の再構成といった現象が起こっています。さらにその奥には、シグナル伝達経路や進化的に保存された機能単位、薬剤作用機序といった、生物学的な意味や原理が存在しています。同じ臓器のがんであっても患者ごとに病態が異なるのは、ネットワーク構造が異なるからではなく、その背後で支配的な現象や意味の層が異なるからです。創薬において重要なのも、どの遺伝子がつながっているかではなく、どの分子機構が全体を駆動しているのかという問いです。ここで求められているのは、ネットワークの記述ではなく、現象の推定、さらには意味や原理の解明です。
犯罪検知・金融領域 犯罪検知や金融領域でも同様の構図が見られます。金融取引ネットワークや企業間関係ネットワーク、SNS上の人間関係ネットワークなどは、観測可能なネットワーク構造です。エッジは取引や通信、資金移動といった具体的な行動の記録です。しかし、それらは背後で起こっている現象の結果に過ぎません。マネーロンダリングであれば資金の循環パターンや隠蔽行動、市場であればセクター全体の同時上昇やボラティリティの増大といった動的挙動が現象として現れます。さらにその背後には、組織犯罪の戦略、地政学的リスク、金融政策、マクロ経済構造といった、より深い意味や原理があります。市場が動くのは銘柄同士がつながっているからではなく、その背後にある経済構造や政策判断が現象を生み出し、その結果としてネットワーク構造が形成されるのです。ここでも重要なのは、ネットワークそのものではなく、「どの意味的・原理的要因がどの現象を通じて市場や社会を動かしているのか」を理解することです。
環境・地球規模データ 環境・地球規模データの領域ではさらに明確です。人工衛星やセンサーから得られる観測データは、時空間的に結びついた巨大なネットワークを形成します。観測点間の相関や依存関係は、グラフとして表現できます。しかし、その背後で起こっているのは、エルニーニョ現象や異常気象、干ばつや豪雨といった現象です。そしてさらにその奥には、海洋循環や大気対流、エネルギー収支といった地球システムの物理的な意味や力学原理が存在しています。観測ネットワークは、物理法則に基づく力学原理が生み出した現象の表層的な投影です。災害予測や政策立案において重要なのは、観測構造を精密に描写することではなく、どの力学原理がどの現象を駆動しているのかを理解することです。
これら領域に共通しているのは、観測されるネットワークが最も表層にあり、その背後に現象があり、さらにその奥に意味や原理が存在するということです。ネットワークは現象の結果であり、現象は意味に基づいて生じます。巨大で複雑なグラフを理解するとは、構造から現象へ、そしてその奥にある意味へと迫ることに他なりません。このような問題意識のもとで、次の問いが自然に浮かび上がります。
巨大で複雑なグラフから、どのようにすれば現象の構造を抽出することができるのか。そして、その先にある意味へと接続する基盤をどのように構築できるのか。
仮説:大規模グラフは少数の隠れ因子で理解できる
この問題に対して、私たちは以下の仮説に基づく研究を進めています。
仮説1: 大規模グラフの背後には少数の隠れた因子が存在し、グラフ全体の構造はそれら因子間のより単純な相互作用として理解できる この仮説は必ずしも自明ではありませんが、自然科学や社会科学では、複雑な現象が少数の主要な因子によって近似できる例が数多く知られています。物理学の基礎方程式や経済学のマクロ指標に見られるように、観測の背後に低次元の構造を想定する考え方は、広く受け入れられてきました。
仮説2: 隠れた因子は元のノードの線形結合として表現される ブラックボックス的な潜在変数と異なり、どのノードがどの因子に関与しているかを明示的に示せる点が重要です。線形結合という単純な枠組みによって、構造への寄与を直感的に追跡でき、結果の解釈もしやすくなります。この解釈可能性は、科学的理解や実務への応用において大きな意味を持つと考えています。
次節以降では、本仮説に基づく具体的な取り組みを紹介します。第一の技術は、大規模グラフを直接扱い、その背後にある少数の隠れた因子を推定する手法です。因子は元のノードの線形結合として表現され、どのノードがどの因子に寄与しているかを明示できます。計算量は膨大になりますが、推定された因子から元のグラフへ戻って詳細な分析を行うことが可能です。第二の技術は、大規模グラフを明示的に計算することなく、因子とその間の疎な依存関係を高速に推定する手法です。
大規模ネットワークのテンソル表現による隠れた共通因子の抽出
グラフのテンソル表現

最初の取り組みでは、グラフデータを数学的にどのように表現するかから出発します [1]。グラフの基本表現は「隣接行列」です。ノード同士がつながっていれば1、そうでなければ0(あるいは重み)を与え、ノード数×ノード数の2次元行列として表します。しかし、現実のグラフはそれだけでは十分ではありません。各ノードやエッジには発現量、売上高、気温など、複数の属性や条件、さらには時間といった情報が付随します。こうした「関係」に加えて「ノード・エッジごとの特徴量」や「時間・条件」の軸を含めるには、2次元の行列では不十分です。そこで用いるのが「テンソル」です。テンソルは行列を高次元に拡張した多次元配列であり、例えばノードi、ノードj、特徴量kという3つの軸を持つ三次元データとして表現できます(図2)。このように、ノード・エッジ属性や条件情報を含むグラフ全体は、自然に3次元以上のテンソルとして捉えることができます。
少数の因子の線形結合としてテンソルを近似
この観測テンソルを、テンソル分解と呼ばれる数学的手法を用いて、少数の因子の線形結合として近似できると仮定します。数式で書けば、
のように表されます。ここではそれぞれ各モード(ノード、ノード、特徴量など)に対応する因子ベクトルであり、「外積」の形でテンソルを構成します。重要なのは、この分解によって「どのノードがどの因子にどの程度寄与しているか」が明示的にわかることです。因子は元の変数の線形結合として表現されるため、解釈可能性が保たれます。
因子間の複雑な構造の抽出
しかし我々の技術の本質は、単にテンソルを分解することではありません。通常のテンソル分解では、観測データをうまく再構成することが目的となるため、得られる因子はあくまで統計的な共変動パターン、すなわち「現象」のレベルにとどまります。一方で我々の手法では、複数のグラフに共通する因子が、分類性能を通じて意味的な軸(例えばがんの悪性度など)と整合するように最適化されます。具体的には、分解によって得られた少数の隠れ因子を入力として、グラフを高精度に分類できるニューラルネットワークを同時に学習します [1][2]。そして、その学習を通じて、線形結合の重み(=元変数と隠れ因子の関係)と、分類ネットワークのパラメータを同時最適化します。すなわち、現象の抽出にとどまらず、意味・原理レベルの構造が見えるような因子空間を構築することを目指しています。これにより、
- 元の観測変数と隠れ因子の関係は線形で保たれる
- しかし隠れ因子空間における分類境界は非線形に学習される
という構造が実現します。隠れ因子は少数であるため、その空間は2次元や3次元程度に可視化することが可能です。すると、非線形な分類境界を視覚的に確認することができます。巨大な高次元グラフ空間では見えなかった構造が、低次元の因子空間では明瞭に現れます。

人工データを用いた実験により、この特徴を象徴的に示すことができます(図3)[2]。この実験では、まず「隠れ因子空間」において、渦巻状の非線形な分類境界を人工的に定義します。すなわち、2次元の因子空間でクラスが渦巻状に分布するような構造を作ります。次に、その因子と線形結合の関係にある「観測変数」を生成します。具体的には、98次元のノイズを加えて100次元のデータとし、その100次元空間に回転を加える線形変換により観測変数を生成します。観測側から見ると、渦巻構造はノイズに埋もれてしまいそのままでは明確には見えません。この状況で、観測データだけを与えて、背後の因子空間とその非線形な分類境界を復元できるかを検証します。なお、この実験では技術的特徴を明確に示すために、グラフの隣接行列を 1×100 の形、すなわち1つのノードと100個のノードの関係のみを持つ特殊な構造を想定しています。これは、単純な構造のもとであっても、背後に非線形な因子構造が潜み得ることを示すための設計です。
結果は非常に印象的です。主成分分析(PCA)や線形判別分析(LDA)では、渦巻構造は捉えられません。分類境界は直線的にしか表現できず、クラスは混在したままになります。しかし我々の手法では、隠れ因子空間を正しく復元し、その上に渦巻状の非線形分類面を明確に描き出すことができます。図3に示されているように、非線形な分類構造が可視化可能な形で現れます。これは、観測側では単なる線形結合であっても、背後にある非線形な構造を抽出できることを示す重要な結果です。
遺伝子データへの適用:がんの悪性度の背後に隠れたメカニズムの発見
我々は、本手法を生物学データへ適用しました [3]。対象としたのは、がんに関連する遺伝子発現データです [4]。特に、上皮間葉転換(EMT: Epithelial–Mesenchymal Transition)という生物学的現象に着目しました。EMTは、がん細胞が浸潤性・転移性を獲得する過程に関与するとされる重要なメカニズムです。EMTには既知の指標遺伝子群が存在し、それらの発現パターンからEMTスコアを定義することができます。問題は、数千遺伝子の中から、EMTという生物学的軸と整合する潜在構造をデータ駆動的に見出せるかどうかです。

図4は、我々の手法をこのデータに適用して抽出した隠れ因子を、2次元平面上で可視化したものです。抽出された隠れ因子の分布が、EMTスコアと強く相関していることが示されています。すなわち、事前にEMTラベルを直接与えていないにもかかわらず、因子空間の中にEMT軸と整合する方向が自発的に現れました。
さらに、抽出された因子に寄与する遺伝子群をエンリッチメント解析した結果、EMT関連経路、細胞接着、細胞骨格再構成などの生物学的に妥当な経路が有意に同定されました。なお、エンリッチメント解析とは、ある遺伝子の集まりの中に、特定の機能や経路に関係する遺伝子が「偶然よりも多く含まれているかどうか」を統計的に調べる方法のことです。つまり、その遺伝子群がどのような生物学的特徴を持っているのかを客観的に明らかにするための解析手法です。この結果は、データの単なる数学的分解ではなく、生物学的に意味のある構造を抽出できていることを示しています。
このように、巨大な遺伝子ネットワークを直接解釈することは困難ですが、少数の因子へと還元し、その因子空間での非線形な分類構造を可視化することで、生物学的に妥当な現象を浮かび上がらせることが可能になります。テンソル表現と線形結合に基づく因子抽出は、解釈可能性を保ちつつ、背後に潜む非線形な現象構造をあぶり出すための強力な手段となります。
隠れた共通因子間のグラフ構造を高速に直接推定
これまでに、観測された大規模グラフから隠れ因子を抽出し、その因子空間における非線形な分類構造をあぶり出しました。しかし、このアプローチを実データへ大規模に適用する際には、もう一つ大きな課題がありました。それは「大規模グラフ構造そのものの推定にかかる膨大な計算量」です。例えば、数万遺伝子間の依存関係を直接推定することを考えてみます。遺伝子数が数万規模になると、依存関係を統計的に安定に推定するには極めて大きな計算資源が必要になります。実際、数万遺伝子規模のネットワークを高精度に推定する作業は、通常の研究機関が利用可能な最高レベルのスパコンを用いても数か月単位の計算時間がかかる場合があります。しかし、進歩の速い研究領域において、そのような長時間の計算を前提とする手法は実用的とは言えません。新しいデータが得られるたびに大規模ネットワークを再構築するのでは、迅速な仮説生成や臨床応用にはつながりません。そこで我々が次に取り組んだのが、「観測変数間の巨大な依存構造を直接推定するのではなく、少数の隠れた因子間の依存関係を高速に推定する」というアプローチです。

従来の方法(Graphical Lasso)
多変量ガウス分布を仮定すると、変数間の条件付き独立性は「精度行列(共分散行列の逆行列)」によって表現されます。共分散行列が全体的な相関を示すのに対し、精度行列は「他の変数を固定したときに、どの変数同士が直接的に依存しているか」を示します。Graphical Lasso [5]は、この精度行列を推定する際に、L1正則化(Lasso)と呼ばれる手法を用います。L1正則化とは、パラメータの絶対値の総和にペナルティを課すことで、多くのパラメータをゼロに押し込む方法です。その結果、推定される精度行列はスパース(疎)になります。すなわち、「本当に必要な依存関係」だけが残る構造になります。しかし、図5(b)から分かるように、たとえ100個のノード間の依存関係であっても、可視化すると非常に複雑なネットワークになります。エッジが多数存在し、人間が直感的に理解することは困難です。ノード数がさらに増えれば、その複雑さは指数的に増大します。
提案手法:隠れ因子空間での依存構造推定(Meta Graphical Lasso)
そこで我々が採用したのが、観測変数間ではなく「隠れた因子間」の精度行列にL1正則化をかけるという考え方です [6]。図5(c)を参照してください。まず観測データを線形変換によって少数の隠れ因子へ写像します。この線形変換は、複数のデータセットに共通する形で推定できます。そして、その隠れ因子間の精度行列にL1正則化を適用して依存関係を推定します。ここでの違いは明確です。
- 従来のGraphical Lassoは「観測変数間」の精度行列にL1正則化をかける。
- 本手法は「隠れ因子間」の精度行列にL1正則化をかける。
観測変数が数万あっても、隠れ因子が20個程度であれば、推定すべき依存関係は大幅に削減されます。計算量は劇的に小さくなり、しかも因子数が少ないため、可視化しても人間が理解可能な規模になります。さらに重要なのは、この線形変換を複数のデータセットに共通なものとして推定できる点です。すなわち、共通の因子空間を基盤として、データセットごとに異なる依存構造を比較することが可能になります。複数のデータセットに共通する因子を基盤として依存構造を推定することで、単一データセット内の統計的構造にとどまらず、薬剤耐性や社会構造といったより本質的な意味・原理レベルの共通メカニズムに近づくことが可能になります。
遺伝子データへの適用:5-FU感受性により異なる隠れた依存関係
この手法を適用した代表的な問題が、抗がん剤5-FU(5-fluorouracil)に対する感受性の違いを生み出す隠れたメカニズムの推定です。使用したデータは、約12,000遺伝子の発現データで、数百サンプルから構成されています。サンプルは、5-FU感受性に基づきB1〜B4の4群に分類されています。B1は最も感受性が高い群、B4は最も低い群であり、その中間にB2・B3が位置します。この分類は、薬剤応答の臨床的な指標に基づいています。本研究の目的は、「5-FU感受性の違いを生み出している隠れた分子メカニズムは何か」を明らかにすることです。単にどの遺伝子が差次的に発現しているかを見るのではなく、因子間の依存構造が群ごとにどのように変化するかを解析します。

図6を参照すると、20個の隠れ因子間の疎な依存ネットワークが、B1〜B4群で明確に異なることがわかります。例えば、以下の相互作用が5-FU感受性と強く関連していることが観察されました。
- 0(ECM-receptor interaction)と 2(Phagosome)の間の正の相互作用は、5-FU感受性細胞株(B1)で強く観察されますが、感受性が低下するにつれて弱まり、5-FU耐性細胞株(B4)では消失します。
- 2(Phagosome)と 6(Transcriptional misregulation in cancer)、および 2(Phagosome)と 12(Antigen processing and presentation)の相互作用も、5-FU感受性特異的な相互作用として確認されました。これらは感受性細胞株で顕著に現れ、耐性化に伴い失われます。
- さらに、1(Focal adhesion)と 11(Protein digestion and absorption)の相互作用は、B1では負の相関を示しますが、B2では消失し、B3およびB4では正の相関へと反転します。この符号反転は、5-FU感受性から耐性への遷移に伴う分子機構の変化を示唆しています。
抽出された隠れ因子は、エンリッチメント解析によってKEGGパスウェイと関連づけられています。これにより、各因子がどの生物学的経路と対応しているかが解釈可能になります。つまり、数千遺伝子の複雑な依存関係を直接扱うのではなく、20個の因子間ネットワークとして5-FU応答の違いを説明できることが示されました。これは、医学的に意味のある仮説を高速に生成できることを意味します。
金融データへの適用
金融データへの適用では、約4,000銘柄の米国株価データを使用しました。サンプル数は日次データで約1,500日分を用いています。これらを2008年以降の7年間に分割し、各年ごとに依存構造を推定しました。厳密には、株価データは強い時間的依存を持つ時系列データです。しかし今回は簡易的な実験として、日次サンプル間を独立と仮定して解析しています。それでも、いくつかの興味深い示唆が得られました。

図7を参照すると、年ごとに因子間の依存関係がどのように変化しているかが視覚的に確認できます。目で見てわかるほど明確なトレンドが存在します。特に重要な示唆は次の2点です。
- 因子1がレアメタル関連、因子3が電子機器関連と解釈されました。2010年と2012年に、それぞれ逆向きの依存関係が見出されており、これは中国と欧州の間で発生したレアメタルの貿易摩擦との関連を示唆しています。特定のマクロイベントが因子間依存構造に反映されていることが読み取れます。
- 因子8はガス・石油関連因子と解釈されました。2012年および2014年に他の因子との強い依存関係が観察されており、これは当時大きな話題となったシェール革命との関連を示唆しています。エネルギー市場の構造変化が、因子ネットワークの形として現れていることが確認できます。
巨大な銘柄間ネットワークを直接解析するのではなく、少数因子間の依存構造として市場ダイナミクスを把握できることが、本手法の重要な成果です。このように、Meta Graphical Lassoは、巨大な観測グラフを直接推定するのではなく、少数の隠れ因子空間へ写像し、その因子間依存構造を高速かつ解釈可能な形で推定する枠組みです。計算効率と解釈性を両立しながら、実データに対して具体的な示唆を与えることが可能になりました。
最後に
今後の取り組み
本稿では、「ネットワークの背後にある現象をいかに抽出するか」という問いに焦点を当ててきました。線形射影に基づく因子モデルは、大規模グラフという最表層の構造を、少数の解釈可能な因子へと還元する強力な枠組みです。遺伝子データや金融データへの適用が示すように、複雑な接続構造の背後にある現象レベルのパターンを明瞭に浮かび上がらせることができます。
本稿で紹介した手法により、意味・原理レベルと整合する現象構造に迫る足がかりは得られつつあります。しかし、その最終的な意味づけは依然として専門家の知識との照合に大きく依存しています。抽出された因子が最終的にどの意味や原理に対応するのかを理解するには、依然として専門的な背景知識との照合が必要です。また、現実世界の構造は本質的に非線形であり、線形因子の重ね合わせだけでは十分に捉えきれない側面も残ります。すなわち、「ネットワークから現象へ」は一定程度自動化できても、「現象から意味・原理へ」の接続は、まだ人手に大きく依存しているのが現状です。
ここで近年の生成AI、とりわけ大規模言語モデルの進展が、新たな可能性を切り開きつつあります。これらのモデルは、生物学論文、金融レポート、政策文書などに蓄積された膨大な知識を内部に保持しています。もし、因子モデルによって抽出された現象構造と、テキストに埋め込まれた概念構造を結び付けることができれば、因子の意味づけを半自動的に行うことが可能になります。これにより、図1に示すように、大規模ネットワークの背後にある現象や意味・原理を、人類がこれまで蓄積してきた膨大な知見と密接に結び付けながら理解することが可能になります。
私たちは現在、この方向に向けた研究を進めています。構造的に妥当な因子モデルを基盤としつつ、生成モデルを用いてその意味解釈を強化する。目指しているのは、「構造」と「文脈」を統合した次世代のグラフ解釈技術です。
まとめ
大規模グラフは、そのままでは理解が難しい対象です。ノードやエッジの集合を直接分析するだけでは、背後で起きている事象を十分に捉えることはできません。一方で、構造を因子へと分解することで、複雑なネットワークを現象のレベルで整理して捉えることが可能になります。本稿で紹介したテンソル分解や因子間依存構造の推定は、そのための基盤となる手法です。これらの取り組みにより、観測されたネットワーク構造から、背後にある現象的なパターンを体系的に抽出する道筋が見えてきました。さらに今後は、数値的に得られた構造と既存の知識や文脈情報とを結び付けることで、ネットワークから現象、そして意味・原理へと接続する枠組みへと発展させていくことが期待されます。本稿で示したのは、その流れの中核となるアプローチです。大規模グラフを単なる構造としてではなく、現象を理解するための手がかりとして扱うこと。その視点が、次の展開につながっていくと考えています。
これまで3回にわたり、私たち富士通研究所のグラフAIへの取り組みをご紹介してきました。観測技術の発展に伴い、宇宙・地球規模のマクロな視点から、細胞や分子といったミクロな視点に至るまで、活用すべきグラフデータは急速に大規模化・多様化しています。10億ノード規模の大規模グラフAIの実現、高度な説明可能性・解釈可能性の確保、さらには大規模グラフの背後にある現象や意味・原理を理解する技術の重要性は、今後ますます高まっていくと考えられます。私たちは、グラフAIのさらなる発展に向けて、引き続き精力的に取り組んでまいります。
参考文献
[1] Koji Maruhashi, Masaru Todoriki, Takuya Ohwa, Keisuke Goto, Yu Hasegawa, Hiroya Inakoshi, Hirokazu Anai: Learning Multi-Way Relations via Tensor Decomposition With Neural Networks. AAAI 2018: 3770-3777
[2] Koji Maruhashi, Heewon Park, Rui Yamaguchi, Satoru Miyano: Linear Tensor Projection Revealing Nonlinearity. CoRR abs/2007.03912 (2020)
[3] Park H, Maruhashi K, Yamaguchi R, Imoto S, Miyano S (2020) Global gene network exploration based on explainable artificial intelligence approach. PLoS ONE 15(11): e0241508.
[4] Shimamura T, Imoto S, Shimada Y, Hosono Y, Niida A, Nagasaki M, et al. (2011) A Novel Network Profiling Analysis Reveals System Changes in Epithelial-Mesenchymal Transition. PLoS ONE 6(6): e20804.
[5] Friedman, J., Hastie, T. & Tibshirani, R. Sparse inverse covariance estimation with the graphical lasso. Biostatistics 9, 432–441 (2007).
[6] Maruhashi, K., Kashima, H., Miyano, S. et al. Meta graphical lasso: uncovering hidden interactions among latent mechanisms. Sci Rep 14, 18105 (2024)