
こんにちは。私たちは、Fujitsu Research of India Pvt. Ltd(FRIPL)の人工知能研究所に所属するMohit Meena、Yash Punjabi、Mahesh Chandranです。大規模グラフAIにおけるスケーラビリティの課題解決に焦点を当てた、私たちの最新の研究をご紹介できることを嬉しく思います。
今日、グラフは至る所に存在します。それは、私たちが日々接する多くの実世界システムの中核を成しています。ソーシャルメディアは何十億ものユーザーを友人関係ネットワークで結びつけ、ECサイトはユーザー、製品、インタラクションを相互接続された構造として表現します。知識グラフは、Web上のエンティティをグローバルな規模で結びつけます。図1は我々が開発したツールで可視化した大規模なグラフを示しています。

このように広範に存在するにもかかわらず、これらのグラフから構造の特徴を学習し、ノードやサブグラフを分類したり未知のエッジを予測したりすることは決して簡単ではありません。グラフが数十億のノードとエッジに拡大すると、学術的な設定で機能する多くの仮定が破綻し始めます。このような巨大なグラフを扱う中で、2つの基本的な問題が繰り返し浮上してきました。
最初の問題は、限られたメモリと時間制約の下で、グラフAIモデルを大規模に学習することの実現可能性に関するものです。実際には、モデル容量に達するずっと前からメモリがボトルネックとなり、大規模グラフのノード特徴をメモリにロードするだけでも利用可能なシステムメモリを超過し、学習が全く不可能になることがあります。このため、リソース効率の高い学習パイプラインが基本的な要件となります。
2番目の問題は、モデルの選択についてです。学習が可能になったとしても、単一のグラフニューラルネットワーク(GNN)や洗練されたアーキテクチャにグラフ全体を依存すべきでしょうか。実世界のグラフは構造的に非常に多様です。密な領域もあれば、疎な領域もあります。同種性の領域’(似た特徴のノード同士が接続される傾向の強い領域)もあれば、非常に異種性の領域もあります。すべての場所で一つのモデルがうまく機能すると期待するのは強い仮定であり、ほとんどの場合失敗します。
この記事では、これら2つの問題をまとめて取り上げます。私たちはこれらを孤立した問題としてではなく、より大きな課題の相補的な問題として提示します。
1. 大規模グラフ学習におけるメモリの壁を打ち破る
実運用で大規模グラフを扱う際、より良いモデルを選択することよりも、システムを実際に動作させること自体が最初の問題となることがほとんどです。実世界のグラフは簡単に数十億のノードとエッジに膨れ上がり、その時点でまず最初にメモリが厳しい限界に達します。GNNがその精度面の可能性に達するずっと前に、システムがすべてのノード特徴をメモリに保持できないという理由だけで学習が停止することがよくあります。
不正検出のようなドメインでは、この課題は特に顕著です。ノード特徴には、ユーザープロファイル、トランザクション履歴などの豊富で高次元な情報が含まれる場合があり、これらは利用可能なリソースをすぐに圧倒してしまう可能性があります。システムが実世界の制約の下で確実にスケールすることは、ハードウェアが有限である運用パイプラインにおける共通の課題です。
既存のほとんどのグラフ学習パイプラインは、ノード特徴がメモリ内に完全に常駐することを前提としています。この仮定は中小規模のグラフでは機能しますが、大規模になると破綻します。ノード特徴の総量が利用可能なGPUまたはCPUメモリを超えて成長すると、学習は停止してしまいます。サンプリングや分散実行などの手法は限界を広げることができますが、グラフサイズとメモリ容量の間の核となる依存関係を取り除くことはできません。
この問題に対処するため、私たちはパイプラインをシンプルなアイデアに基づいて再設計しました。ノード特徴は、常にメモリに保持されるべきものではなく、必要に応じてフェッチできるデータとして扱うべきだというものです。

図2に示すように、パイプラインはシンプルながら効果的なアプローチを採用しています。グラフ構造はメモリに保持されますが、これは疎な接続情報のみを格納するため、最小限のスペースしか必要としません。対照的に、高次元のノードおよびエッジ特徴は、SQLiteやPostgreSQLなどの軽量データベースを使用して、ノードまたはエッジ識別子によってインデックス付けされたディスクバックアップの特徴ストアに格納されます。
学習中には、現在のミニバッチに必要な特徴のみがオンデマンドでフェッチされます。専用のキャッシュ層は、頻繁にアクセスされる特徴をすぐに利用できるように保持し、全体のメモリ使用量を管理しながら高速な取得を保証します。
重要なことに、このパイプラインはデータアクセスのより高度な最適化戦略を自然に可能にします。すなわち、効率的なメモリマッピングを通じて特徴アクセスをさらに改善でき、複数のキャッシュ層を導入して頻繁にアクセスされるデータの優先順位を付けることができます。例えば、高次数ノードやハブノードのように、より頻繁にアクセスされるノードやエッジは、より高速なキャッシュに配置できます。これらの適応型キャッシングおよびアクセスポリシーは、データ局所性とスループットを向上させつつ、パイプラインのメモリ効率性を維持します。
この設計は実用的な違いをもたらします。グラフサイズはもはや利用可能なメモリに縛られなくなり、同じパイプラインをアーキテクチャを変更することなく、数百万から数十億のノードにスケールさせることができます。さらに、このパイプラインはモデルに依存しません。システムが一度導入されれば、異なるGNNモデルを最小限のオーバーヘッドで同じ大規模グラフ上で学習し、評価できます。
この時点で、大規模グラフ学習の主要な障壁の一つは取り除かれました。私たちはモデルを信頼性高く、効率的に、そして大規模に学習できるようになりました。しかし、これは次の問題につながります。
同じ大規模グラフ上で複数のモデルを効率的に学習できるのであれば、本当に1つのモデルだけに頼る必要があるのでしょうか?
実際のグラフは均一とはほど遠いものです。このことが、私たちがSAGMMと呼ぶ技術の研究に繋がります。この研究では、システムがグラフ構造に基づいて、事前に定義されたエキスパート(グラフ上の特定の情報処理を専門とするGNNモデル群)の候補群からモデルを動的に選択し、重み付けし、そして枝刈りします。
2. 自己適応型グラフ混合エキスパート(Self-Adaptive Graph Mixture of Experts; SAGMM)
Arxiv論文リンク: https://arxiv.org/abs/2511.13062
コードリンク: https://github.com/ast-fri/SAGMM
大規模な実世界のグラフで実験を続けるなかで、繰り返し観察されることがありました。それは、どこでも最もよく機能する単一のGNNアーキテクチャは存在しないということでした。あるデータセットでは非常に優れた性能を発揮するモデルが、別のデータセットやタスクでは苦戦することがよくありました。さらに驚くべきことに、同じグラフ内でも、異なる領域では異なるモデルの仮定が適切であるように見えました。
最初は、これは直感に反するように感じられました。グラフ学習における標準的なワークフローは、広範な試行錯誤の後、1つのGNNアーキテクチャを選択し、それをグラフ全体に同じように適用することです。しかし、実際のグラフは均一ではありません。滑らかで同種性の領域もあれば、疎でノイズの多い領域もあり、非常に不規則な接続パターンを含む領域もあります。このように性質が大きく異なるすべての領域を、単一のGNNアーキテクチャで同じくらいうまく処理できると期待するのは、現実的ではありません。
このことが、シンプルだが強力なアイデアに繋がりました。
単一のGNNを使用するかどうかを問うのではなく、グラフの異なる部分が異なるGNNを使用できるようにすればいいのではないでしょうか?
このアイデアが、私たちのSAGMMフレームワークの開発に直接つながりました。このフレームワークの論文は、AI分野のトップ会議であるAssociation for the Advancement of Artificial Intelligence Conference (AAAI) 2026のMain Technical Trackに採択されました。
このセクションでは、SAGMMの核となるアイデアを直感的に説明します。図3はSAGMMフレームワークの概要を示しており、エキスパートの選択を決定するルーティングメカニズム、多様なエキスパート候補群、そして有用性の低いエキスパートを除去することで効率を向上させる適応型枝刈り戦略という3つの主要コンポーネントを説明しています。図4は、SAGMMの主要な流れを体系的に要約し、各コンポーネントに関連する特徴的な側面を強調しています。


単一モデルから多様なモデル候補群へ
GNNの混合がなぜ有用なのかを理解するためには、GNNのほとんどが舞台裏でどのように機能するかを振り返ってみることが役立ちます。概して、GNNはノードの表現を、その近隣から情報を集約し、学習可能な変換と非線形性を介してノード表現を更新していくことで学習します。一般的な更新ルールは以下の式に示されています。ここでは、各ノードが畳み込みまたは集約演算子を使用して近隣からメッセージを収集し、その埋め込みを層ごとに更新します。
この式は一般的ですが、人気のあるGNNアーキテクチャの主な違いは、集約項がどのように定義されるかにあります。
GCN [1]やGraphCNN [2]のようなスペクトルベースのモデルでは、集約重みは固定されており、通常は正規化された隣接行列やラプラシアンを用いてグラフ構造から直接導出されます。これは、同種性グラフのように隣接ノードが類似している場合にうまく機能しますが、すべての隣接ノードを均一に扱います。
これに対し、GraphSAGE [3]、GIN [4]、GAT [5]などの空間および集約ベースのモデルは異なるアプローチを取ります。固定された集約の代わりに、平均、合計、注意などの関数を使用して隣接情報を結合する方法を学習します。これらのモデルでは、集約重みがデータから学習され、各隣接ノードがどの程度寄与すべきかをモデルが適応的に決定することができます。この柔軟性により、ノイズの多い、疎な、または異種的な近隣に対してより堅牢になり、誘導学習を可能にします。
重要なことは、各GNNアーキテクチャがグラフを通じて情報がどのように流れるかについて異なる設計選択をするということです。これらの選択は各モデルの異なる得意分野に帰着されます。一部のモデルは滑らかで局所的な近隣を好み、他のモデルは適応的な重み付けや長距離相互作用を強調します。特定の選択が普遍的に最適であることはありません。
この観察が、自然にSAGMMにつながります。どこでも1つの集約ルールや1つの得意分野にコミットする代わりに、SAGMMは各GNNを更新ルールの特定のバージョンを実装するエキスパートとして扱います。数学的には、以下のエキスパート混合の定式化に示すように、最終的なノード表現()は、エキスパート固有の情報集約・更新による出力ノード表現の重み付き結合として計算されます。ここで、ルーティング重み(g(v,ei))は動的に学習されます。
ここで、 はエキスパート固有の情報集約・更新です。直感的には、各ノードが複数のエキスパートに助言を求めますが、最も関連性の高いエキスパートの助言のみを聞く、と考えることができます。
トポロジー認識アテンションゲーティングと適応型エキスパート枝刈り
適切なエキスパートを選択することは、多様なエキスパート候補群を持つことと同じくらい重要です。既存の多くのMoEアプローチは固定されたTop-k選択に依存しており、これは感度を導入し、慎重な調整を必要とします。図5に示すように、この選択によってパフォーマンスは大きく異なり、ほとんどのノードは構造的な複雑さに関わらず、同じ数のエキスパートを活性化することになります。

これに対処するため、私たちはトポロジー認識アテンションゲーティング(TAAG)を導入しました。TAAGは、ルーティングの決定を行う際に、ノード特徴だけでなく、局所的な近隣情報とグローバルな構造信号の両方を組み込みます。TAAGは、ノードが実際に必要とするエキスパートの数を決定するために、学習可能なしきい値も使用します。単純なノードは単一のエキスパートを活性化するかもしれませんが、構造的に複雑なノードは複数のエキスパートから情報を引き出すかもしれません。これにより、安定性があり効率的な、疎なノードごとのルーティングが実現します。
学習が進むにつれて、すべてのエキスパートが同じように有用であるとは限りません。一部のエキスパートは、ノード全体でほとんど寄与しないことがあります。これらを無期限に保持するのではなく、SAGMMはエキスパートの重要度を追跡し、定期的に機能不全のエキスパートを枝刈りします。
中心となるアイデアはシンプルです。
- 過去の貢献に基づいてエキスパートの重要度を動的に推定する。
- 恒常的に十分に活用されていないエキスパートを段階的に除去する。
これにより、パフォーマンスを犠牲にすることなくメモリと推論コストを削減し、フレームワークがより効率的で持続可能になります。詳細なTAAGと枝刈りの方程式、および完全なアルゴリズムは、関心のある読者のために論文に記載されています。
フローズンエキスパートと持続可能なトレーニング
SAGMMは、事前学習済みエキスパート設定(SAGMM-PEと称する)もサポートしています。この拡張機能では、エキスパートが一度事前学習され、その後フリーズされます。SAGMMの学習中には、軽量なルーターとタスクヘッドのみが更新されます。
この設計により、大規模モデルの反復的なエンドツーエンド再学習が不要になり、計算量、メモリ使用量、およびエネルギー消費を大幅に削減できます。実際には、このことは、持続可能性とコスト効率が重要な大規模で長期間稼働するシステムにとって、SAGMMをより適切なものにします。
結果と洞察
私たちは、ノード分類、グラフレベル予測、リンク予測タスクにおいて、SAGMMをさまざまなベンチマークデータセットで評価しました。表1~4は、これらの一般的なグラフ学習タスクにおけるSAGMMの詳細な定量的結果を報告しています。すべてのタスクとデータセットにおいて、SAGMMは強力なベースラインを一貫して上回り、最も効果的なエキスパートを適応的に選択します。図6はこれらの結果の要約で、各タスクカテゴリでSAGMMが達成した最大のパフォーマンス向上を示しています。





SAGMMの各コンポーネントが性能にどの程度寄与しているかをよりよく理解するために、私たちはその中核コンポーネントを体系的に変更したときの性能の変化を調べました(アブレーションスタディ)。ここでは4とおりの評価を行いました。すなわち、エキスパート間で同一のGNNを使用することでエキスパートの多様性を排除する、提案されたゲーティングメカニズムをノイジーなTop-kゲーティングに置き換える、動的なエキスパート選択を備えたTop-Anyゲーティングを採用する、そして適応型エキスパート枝刈りモジュールを無効にする、という評価です。結果は以下の表に示されています。

この中核コンポーネントの体系的な変更による性能検証から得られる結論は:
- エキスパートの多様性は極めて重要である。アーキテクチャの異質性を取り除くと、最大の性能低下が生じる。
- TAAGゲーティングと枝刈りは重要である。代替ゲーティングは選択品質を低下させるが、枝刈りは精度を維持しつつメモリ効率を大幅に向上させる。
結論
本研究では、メモリ制約下でグラフ学習システムをスケールさせる方法と、モデルの得意分野をグラフの異質性に適応させる方法という、2つの相補的な問題に取り組みました。SAGMMは、モデル選択を学習されたノードレベルの決定とすることで、後者に対処します。
今後は、このアイデアをさらに深く掘り下げる「分割統治」戦略を探求しています。ノードレベルだけでなく、グラフをより細かい構造単位に分解し、さらにきめ細かいスケールでエキスパート選択を学習することを目指しています。この方向性が、効率と適応性をさらに向上させることができると信じており、これらのアイデアは今後の研究で共有していく予定です。
効率と性能を超えて、なぜモデルが特定の決定を下すのかを理解することも同じくらい重要です。パート2では、私たちの同僚が、説明可能性と、FRIPLの人工知能研究所がグラフ学習モデルをより透明で解釈可能なものにするために開発している技術に焦点を当てた、補完的かつ独立した研究について議論します。
参考文献
[1] Kipf, T. N., and Welling, M. Semi-Supervised Classification with Graph Convolutional Networks.
International Conference on Learning Representations (ICLR), 2017.
https://arxiv.org/abs/1609.02907
[2] Defferrard, M.; Bresson, X.; and Vandergheynst, P. 2016. Convolutional neural networks on graphs with fast localized spectral filtering. NeurIPS, 29. https://arxiv.org/abs/1606.09375
[3] Hamilton, W. L., Ying, R., and Leskovec, J.
Inductive Representation Learning on Large Graphs.
Advances in Neural Information Processing Systems (NeurIPS), 2017.
https://arxiv.org/abs/1706.02216
[4] Xu, K., Hu, W., Leskovec, J., and Jegelka, S.
How Powerful Are Graph Neural Networks?
International Conference on Learning Representations (ICLR), 2019.
https://arxiv.org/abs/1810.00826
[5] Veličković, P., Cucurull, G., Casanova, A., Romero, A., Liò, P., and Bengio, Y.
Graph Attention Networks.
International Conference on Learning Representations (ICLR), 2018.
https://arxiv.org/abs/1710.10903
[6] Wu, Q., Zhao, W., Yang, C., Zhang, H., Nie, F., Jiang, H., Bian, Y. and Yan, J., 2023. Sgformer: Simplifying and empowering transformers for large-graph representations. Advances in Neural Information Processing Systems, 36, pp.64753-64773. https://arxiv.org/abs/2306.10759