fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

SC25に参加・展示しました#3 ~AI時代を支える富士通ミドルウェア技術とHPC業界動向

こんにちは、富士通研究所 コンピューティング研究所の平賀、木下、大辻です。

本記事は2025年11月にアメリカ合衆国 セントルイスで開催された国際会議SC25の参加報告(全4回連載)のうち、3つ目の記事となります。 コンピューティング研究所がブースで展示した内容や、スーパーコンピュータに関わる性能ランキング(Top500、Green500、IO500)の動向、 その他イベントの様子についてお届けいたします。

209年前に建設が始まった旧裁判所"Old Courthouse"

富士通技術の展示紹介 - AI時代を支えるミドルウェア技術

SC25富士通ブースの展示の中から、富士通研究所コンピューティング研究所が展示したGPU効率化技術について紹介いたします。

高価なGPU、活かしきれていますか?

AIインフラの課題―見えない税金

AI処理においてGPUは不可欠な存在ですが、その高額なコストに見合った活用ができているでしょうか。 実測値に基づく調査において、GPU利用率が70%に満たない組織が7割に上るとされ、これは言わばAIインフラに課せられた「見えない税金」のようなものです。 GPUの利用率を向上させることは、AI時代における重要な技術課題となっています。

この課題に対し、富士通研究所コンピューティング研究所では以下3つの技術を展示しました。

AI Computing Broker - 複数アプリケーション間でのGPU共有

AI Computing Broker

AI Computing Broker(ACB)は、複数のAIアプリケーションが効率的にGPU群を共有できるミドルウェア技術です。 ACBはAIプログラムの動作を監視し、GPUが必要になったタイミングで自動的に割り当て、処理完了後は次のプログラムにGPUを渡します。

ACBの特長は、複数のアプリケーションでGPUを共有しながらも、各アプリケーションが全GPUメモリを利用できる点にあります。 通常、GPUを共有するとメモリ領域も分割する必要がありますが、ACBは独自の技術により、あたかも専有しているかのように各アプリケーションが全メモリ領域にアクセスできるようになっています。 さらに、既存のAIアプリケーションのコードを一切変更することなく、この恩恵を受けられます。 これにより、少ないGPU数で従来と同等以上のワークロードを処理でき、コスト削減につながります。

SC25の展示では、弊社技術戦略本部のネイティブスピーカーの方にご協力いただき、海外からの来場者との円滑なコミュニケーションが実現できました。 特にACBに対しては多くの企業や研究機関から具体的な導入に関するご質問をいただきました。 ACBは現在、実用化・製品化のフェーズへと進んでおり、複数の組織でPoCが実施されています。

ACBは無料トライアルを提供しております。 また、導入事例や詳細については、ACBについての詳細ページをご覧ください。

LLM推論高速化 - 高速分散データストアによるGPUメモリ拡張

LLM推論高速化

チャットボットやコーディングエージェントなど、LLMを活用したアプリケーションが普及する中、大きな文書や長いチャット履歴への対応が課題となっています。 LLMは入力された情報を基本的には毎回再計算する必要があり、処理時間が長くなってしまいます。 この問題はキャッシュを使うことで解決できますが、GPUメモリ容量には限りがあります。 さらに、各GPUは独立したキャッシュを持つため、同じ文書に対する質問が別のGPUに割り振られると、キャッシュを再利用できず再計算が必要になります。 これはGPUリソースの無駄遣いと性能低下につながります。

この課題を解決するため、コンピューティング研究所ではHPC技術を活用した高速データストア技術を開発中です。 この技術により、LLMのキャッシュを全てのGPUや計算ノード間で共有できるようになります。 従来は各GPUが個別にキャッシュを保持していましたが、共有データストア上に一元化して保存することで、どのGPUからも同じキャッシュにアクセスできるようになります。

今回の展示では、初期段階の実験結果と効果を示すチャットデモを紹介しました。 実験では、推論性能(1秒当たりのリクエスト処理数)が従来の2.3倍向上し、レスポンス時間を72%短縮できることを確認しています。 引き続き研究開発を進め、チャットボットや文書Q&Aシステムなど、長文書を扱うアプリケーションへの適用を検討しています。 本技術にご興味のある方は、ぜひお問い合わせください。 なお、LLM推論基盤のGPU効率化にご関心のある方は、先行して提供中のACBもあわせてご検討ください。

インタラクティブHPC - 従来HPCジョブを止めずにAI開発を効率化

インタラクティブHPC

生成AIやリアルタイム解析などの分野では、試行錯誤を伴う開発や対話的な解析など、インタラクティブな計算ニーズが高まっています。 一方、従来のHPC環境では、バッチキューイングシステムによるジョブ実行が主流であり、 計算リソースを貸し切って順番に処理を行うため、短時間で完了する処理でも長時間実行中のジョブの完了を待つ必要があります。 インタラクティブなAIワークロードと従来のHPCシステムの特性は相性が悪く、AI時代のコンピューティングにおける課題の一つです。

コンピューティング研究所が開発した「インタラクティブHPC」技術は、この課題を解決します。 本技術により、短時間ジョブを長時間ジョブに割り込ませて実行することで待ち時間を大幅に削減することができます。 このような手法は従来は並列アプリケーションに対して適用することが困難であるとされていましたが、高精度なノード間同期技術を導入したことにより、全ノードのジョブ状態を同期させ、大規模なMPIアプリケーションにも対応します。

さらに今回は新たにGPU透過的プリエンプション機能に関する展示を行いました。 この機能は、GPUメモリの退避・復元機能をSlurmスケジューラに統合することで、 実行中のGPUジョブのメモリをホストメモリに一時退避し、アプリケーションを停止せずにジョブ切り替えを実現します。 これにより、CPUジョブだけでなくAIアプリケーションをはじめとするGPUジョブにおいても、長時間実行中のジョブを中断することなく、短時間ジョブを即座に実行できるようになりました。

本技術は既に1056ノードのARMクラスタや東京科学大学のTSUBAMEスーパーコンピュータで実運用されています。 展示で紹介した3つの技術の詳細については、以下の資料をご参照ください。

参考資料: SC25展示資料(PDF)

スーパーコンピュータランキング最新動向

スーパーコンピュータは多様な指標に基づいて評価されますが、今回はその中でもTOP500(演算性能)、Graph500(グラフ処理性能)、IO500(ストレージ性能)のランキングの動向について紹介いたします。

TOP500:演算性能ランキング

TOP500 BoFの様子
TOP500とは、HPL(High Performance Linpack)ベンチマークを用いて、システムの演算性能を競うランキングで、年2回発表されます。今回、上位10システムまでは前回と変わらず、1位 El Capitan、2位 Frontier、3位 Auroraと米国のシステムがTOP3を維持しています。また、4位のJUPITER Booster(ドイツ)は順位こそ変わらなかったものの、性能を793 PFlop/sから1 EFlop/sに大きく伸ばしており、ヨーロッパでは初となるエクサスケール性能に到達しました。

日本国内では、理化学研究所のスーパーコンピュータ「富岳」は世界7位とアジア1位(12期連続)を獲得しており、HPCGやGraph500では世界2位、HPL-MxPでは8位でした。また、産総研のABCI 3.0、ABCI-Qはそれぞれ16位、32位にランクインしており、SoftbankのCHIE-4が17位を、JCAHPC(東京大学・筑波大学)のMiyabi-Gが42位を獲得しています。

Graph500:グラフ処理性能ランキング

Graph500 BFSランキングにおいて、11期連続で首位を維持してきた「富岳」は、今回初めて2位となりました。1位は米国のクラウドプロバイダーCoreWeaveがテキサス州ダラスのデータセンターで運用する「eos-dfw」で、今回のベンチマーク実行ではNVIDIA H100を8,192基(1,024ノード)使用し、410,266 GTEPSを記録しました。

GPU技術は年々進化しており、グラフ処理は不規則なメモリアクセスが多く、従来は大規模分散システムでの通信制御や動的な負荷分散に長けたCPUが有利でした。しかし近年、NVLinkやInfiniBandといったハードウェア、NVSHMEM(統一アドレス空間)やInfiniBand GPUDirect Async(CPU非経由の通信)といったソフトウェアスタックの進化により、GPUでも効率的な大規模グラフ処理が可能になってきています。

一方、「富岳」はScale 43(8.8兆頂点、141兆エッジ)の問題に挑戦しており、これはeos-dfwのScale 41(2.2兆頂点、35兆エッジ)の4倍の規模です。より困難な大規模問題への挑戦を続けることで、実世界の複雑な科学技術計算に対応できる能力を実証しています。 また、実アプリケーション性能を測るHPCGベンチマークでは16.0 PFlop/sを記録し、2位を維持(1位はEl Capitanの17.41 PFlop/s)。汎用性の高いCPUアーキテクチャにより、気象予測から創薬まで、幅広い科学技術計算で信頼性の高い性能を発揮し続けています。

特筆すべきは、現在のトップクラスのスーパーコンピュータがほぼ全てGPUアクセラレータを搭載する中、「富岳」はCPUのみの構成でこれらのランキング上位を維持している点です。これはアーキテクチャ設計の優秀さと最適化技術の高さを示すものとして、国際的に高く評価されています。GPUの進化は目覚ましいものがありますが、大規模分散環境での安定性や多様なアプリケーションやワークロードへの対応力において、高性能CPUを自ら設計・開発できる技術は依然として重要です。こうした大規模分散システムでの最適化技術や汎用CPUアーキテクチャの知見は、次世代システムの開発にも活かされることが期待されます。

IO500: ストレージ性能ランキング

IO500では、HPC分野におけるストレージシステムの性能を競うランキングです。このランキングではProductionとResearch分野それぞれで、システム全体の性能以外にクライアントノード数を10に限定した性能を競うカテゴリが存在します。

Production全体性能ランキングでは2位、6位、9位に更新があり、ファイルシステムとしてLustreを採用するシステムが減りDAOSが増えました。とはいえ、LustreはTOP100の内3分の2のシステムで採用されており、依然として主流の地位を保っています。また、日本からもソフトバンク社のCHIE-4とCHIE-3がそれぞれ9位、10位を獲得しています。

展示会場の様子

今回のSC25では500社を超える企業が出展し、メイン会場は満杯、さらに隣接するスタジアムも展示会場として使用されるほどの盛況ぶりでした。

インフラ企業の存在感の高まり

特に目を引いたのは、冷却設備や大型電力供給といった大手インフラ関連企業の新規出展です。 展示区画の中でも最大級のスペースを使用する企業が複数あり、非常に目立っていました。 HPCとAIの需要拡大に伴い、液冷や大規模電力供給はもはや必須インフラとなっており、その重要性の高まりとビジネスチャンスの拡大を象徴する光景でした。

AI技術の具体化と実用化

展示の多くで「AI」がキーワードとして前面に打ち出されていました。今回は限られた時間の中で、私はメモリやストレージ関連の展示を中心に見て回りました。 多様なインターフェースに対応したAIストレージシステム、GPUメモリをペタバイト級のフラッシュストレージや分散ストレージに拡張する技術、CXL(Compute Express Link)インターコネクトを活用したAI向けGPUメモリ拡張システムなどが注目を集めていました。 これらの技術は、昨年よりもより具体化され、LLM推論の高速化をはじめとするユースケースの文脈で語られるようになり、存在感を増していました。

AIとHPCの関係性の変化

AIはもはやHPCの応用分野の一つではなく、HPC研究の中核課題として位置づけられていることを実感しました。 生成AI時代に突入してから3回目のSCとなる今回は、ハルシネーション対策やAIの精度といった基礎的な議論から一歩進み、 具体的に「どのようにAIを研究に役立てるか」に焦点をあて、実装方法や活用方法に関する議論が主流となりました。 研究者も企業も、競争力を維持するためにはAIの活用が不可欠であることから、そのためのインフラやミドルウェア技術に対する強いニーズを感じる展示が多く見られました。

科学技術研究におけるAIの位置づけ

多くの講演やディスカッションから共通して感じられたメッセージは、「AIは科学技術研究者にとってコラボレーターであり、人間の能力を拡張するツール」であるということです。 完全な自律を目指すのではなく、科学者の作業を迅速化し効率化するためのツールとして位置付けられています。

今年はAIエージェントが急速に発展した一年でした。基調講演「Gigatrends: The Exponential Forces Shaping Our Digital Future」(Thomas Koulopoulos氏)では、現代が不安定で不確実な時代であり、機会や脅威が出現してから消失するまでの時間間隔が短縮されていることが強調されました。この変化の激しい環境において、AIエージェントが機会を素早く捉え脅威に即座に対応するためには、自律的かつ効率的に動作できる信頼性の高い実行基盤が不可欠です。人とAIが効果的に協調できる高度な技術基盤を構築することが、HPC・AI分野に携わる我々の使命であると強く実感しました。

産学連携の取り組み

東京科学大様のブースにおいてインタラクティブHPCをはじめとする共同研究成果に関する講演を行いました。

富士通は産学連携の取り組みの一環として、国内外の研究機関と共同でスモールリサーチラボを設置しています。 今回は東京科学大様のブースではインタラクティブHPC技術の応用に関する講演を行い、筑波大学様のブースではデータストア技術のAI領域における活用について共同展示を行いました。 いずれも、開発したミドルウェア技術を実際のコンピューティング基盤に適用した事例を紹介するものであり、実アプリケーションに対して価値をもたらす具体例を示しました。

まとめ

本記事では、SC25での富士通研究所コンピューティング研究所の展示技術とHPC業界の最新動向についてご紹介しました。

GPU効率化技術として紹介したACB、LLM推論高速化、インタラクティブHPCの3つの技術は、高価なGPUリソースを最大限に活用することを共通の目標として掲げています。 これらのミドルウェア技術により、GPU投資の効果を最大化し、同じハードウェアでより高いビジネス価値を生み出すことが可能になります。

スーパーコンピュータランキングからは、エクサスケールシステムの本格普及やGPUの進化、AI向けのデータストア技術の発展といったトレンドが見えてきました。 特にGraph500では、最新GPUハードウェアとソフトウェア最適化により、グラフ処理性能が飛躍的に向上している一方で、「富岳」が汎用性と安定性で引き続き重要な役割を果たしていることを再確認しました。

生成AIの本格的な利用開始からわずか3年で、「AI」がキーワードとして会場中に散りばめられ、その規模拡大のための冷却設備や電力供給といった物理インフラ企業の出展が目立っていたことが印象的でした。 「もはやプロセッサよりもポンプの展示の方が多いのでは」とも言われるほど、AIインフラの重要性が高まっています。 議論の焦点も「AIは使えるのか?」から「どう実装し活用するか」についての実践的な段階へと完全に移行していました。

急速に進化するAIエージェント時代において、人とAIが効果的に協調できる高度な技術基盤を構築することが、HPC・AI分野に携わる我々の使命です。 富士通研究所コンピューティング研究所は、信頼性と効率性を兼ね備えたAI時代のコンピューティング基盤の発展に、これからも貢献してまいります。