fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

SC25に参加・展示しました#4 ~「FUJITSU-MONAKA」と「富岳NEXT」に関する展示

こんにちは、先端技術開発本部の枝澤友也、武藤優真、岡本拓也です。私たちはAI・HPC・クラウドなどの最先端領域の未来を支える次世代Armプロセッサ「FUJITSU-MONAKA」1をはじめとした「FUJITSU-MONAKA」シリーズの開発に取り組んでいます。また、2025年6月よりスーパーコンピュータ「富岳」の後継システムである「富岳NEXT」の開発を開始しました。本プロジェクトは現在、理化学研究所様、NVIDIA様と共同で行っております。これらの取り組みや最新動向を世界に発信すべく、2025/11/16~11/21にアメリカのセントルイスで開催された国際会議SC25, The International Conference for High Performance Computing, Networking, Storage, and Analysis(以降、SC25|https://sc25.supercomputing.org/)に現地参加しました。 本記事では、「FUJITSU-MONAKA」と「富岳NEXT」の展示内容と、テクニカルセッション聴講や他社展示見学で得られた最新動向について報告します。

「FUJITSU-MONAKA」

SC25の富士通ブースでは、次世代ArmベースCPU 「FUJITSU-MONAKA」の特徴と主要技術を、ロードマップと併せてご紹介しました。「FUJITSU-MONAKA」はArmv9-AアーキテクチャとArm Scalable Vector Extension 2(SVE2)を採用し、AIとHPCの実アプリケーション性能と電力効率、そしてConfidential Computingによるセキュリティを同時に追求するプロセッサです。スーパーコンピュータ「富岳」で培った技術をデータセンター・HPC・通信分野向けに展開し、次世代の計算基盤を支えることを目指しています。

開発ロードマップでは、「FUJITSU-MONAKA」は2027年に発売する予定です。さらに、2029年にはNPUを搭載し、次世代プロセスノードを適用した「FUJITSU-MONAKA-X」を投入し、スーパーコンピュータ「富岳NEXT」への採用が決定しています。2031年には、CPUとNPUの融合を本格化させた「FUJITSU-MONAKA-XX」へと進化し、最先端プロセスの活用により、さらなる性能向上と電力効率の改善を目指します。

「FUJITSU-MONAKA」シリーズの開発ロードマップ

「FUJITSU-MONAKA」の省電力・高性能を実現するプロセッサ技術

「FUJITSU-MONAKA」は、3Dパッケージに最適化した富士通独自のマイクロアーキテクチャと超低電圧動作技術という独自技術を適用し、高性能化と省電力化を実現します。SC25の展示では、マイクロアーキテクチャを独自設計しその技術を保有するベンダーが稀少であることも相まって来訪者の注目を集めました。ここからは、2つのプロセッサ技術について解説します。

3Dメニーコアアーキテクチャ

「FUJITSU-MONAKA」の3Dメニーコアアーキテクチャ

「FUJITSU-MONAKA」は、複数ダイを垂直に積層する3Dチップレット構造を採用しています。主な構成は、演算を担うCoreダイ、ラストレベルキャッシュ(LLC)を収めたSRAMダイ、そしてPCIe/DDR5などの外部インターフェースを集約するIOダイです。CoreダイとSRAMダイは垂直に積層され、TSV(Through-Silicon Via)によって密に接続することで、低レイテンシ・高スループットを実現します。

また、Coreダイには最先端の2nmプロセスを採用し、SRAMダイ/IOダイには5nmプロセスを使い分ける異種プロセス統合となっています。2nmプロセスはCoreダイのみに適用することで、最先端プロセスの使用領域を30%未満に抑え、性能を維持しながらコストを最適化しています。

この3Dメニーコアアーキテクチャは、積層技術と異種プロセス統合により、要求の厳しいワークロードに対して高性能・省電力・コスト効率を同時に実現します。

超低電圧動作技術

「FUJITSU-MONAKA」の超低電圧動作技術

このスライドでは「FUJITSU-MONAKA」における超低電圧動作技術を解説しています。目標は、CPU全体の動作電圧を引き下げて消費電力を根本的に削減することです。一般に電圧を下げると電力は大きく減りますが、SRAMの不安定化が課題になります。そこで富士通は、専用CADツールとアシスト回路を組み合わせ、超低電圧でも安定動作するSRAMを設計しました。これにより、2nmプロセスの限界を超える次世代の電力効率を目指し、AIやHPC向けに省電力で安定した動作を可能にします。

「FUJITSU-MONAKA」で加速するAI・HPCとソフトウェア開発の取り組み

「FUJITSU-MONAKA」は、AI、HPC、クラウドと幅広い領域をターゲットとしています。各領域のお客様が「FUJITSU-MONAKA」を容易に導入・活用できるよう、それぞれの領域におけるデファクトスタンダードである独立系ソフトウェアベンダー(以降、ISV)製品やオープンソースソフトウェア(以降、OSS)をサポートする方針を掲げ、各ベンダーやOSSコミュニティと連携して開発・検証を進めています。これまでのISCやSCでは、LLVM/GCCの性能・品質改善に関する弊社の取り組みや、Arm Confidential Computing Architecture(CCA)の活用に向けたソフトウェア開発など、幅広い展示を行ってきました。これらについては、以下のテックブログで紹介しているため、興味がある方はぜひご覧になってください。

ISC2025に参加・展示しました#2 ~ 次世代Armプロセッサ「FUJITSU-MONAKA」の最新技術とOSS展開

今回の展示では、特にAIおよびHPCアプリケーションに焦点を当て、以下の3点について紹介しました。

  • AI・HPCワークロードにおける「FUJITSU-MONAKA」の性能
  • AI・HPCのOSS性能向上に関する富士通の貢献
  • AIの産業利用に向けた研究開発

この記事では、これらの取り組みについてご紹介します。

「FUJITSU-MONAKA」のAI・HPCワークロード性能試算

このスライドは、2027年にリリース予定の「FUJITSU-MONAKA」と、同時期にリリースされることが想定される同価格帯の競合他社CPUとの性能比の試算を紹介しています。この試算は、現行CPUの性能情報に加え、「FUJITSU-MONAKA」および競合他社CPUのアーキテクチャ進化による性能向上を想定した推定値に基づいています。各グラフが示す通り、「FUJITSU-MONAKA」はAIおよびHPCワークロードにおいて、高い性能を発揮することが期待されます。富士通では、これらの推定値をお客様に示し「FUJITSU-MONAKA」の導入検討をしていただくと共に、現行のArmプロセッサを用いたお客様のアプリケーション高速化・省電力化効果などのProof of Concept検証など、お客様が効果を実感して「FUJITSU-MONAKA」を導入できるような取り組みも行っています。

ここで示している性能値は、基本的にハードウェアの性能向上によるものですが、富士通ではAIおよびHPCワークロードのさらなる高速化に向けて、ソフトウェアの性能最適化に積極的に取り組んでおり、OSSへのパッチ投稿もアクティブに行っています。今回の展示では、AI・HPC分野でよく用いられる以下のOSSに性能向上に関する取り組みを紹介しました。

  • 大規模言語モデル(LLM)の推論で広く利用されているllama.cppおよびvLLMの性能向上
  • 様々なアプリケーションで用いられる行列演算ライブラリOpenBLASの性能向上

富士通のAI・HPC性能改善に関する貢献

各グラフが示す通り、富士通の貢献によって、それぞれのOSSの性能が大きく向上していることが分かります。llama.cppでは、内部で使われているGGMLというライブラリの行列演算カーネルに対し、Armの8ビット整数行列積命令(SMMLA)を導入することで、性能を改善しました。また、vLLMでは、内部で呼び出されるOpenVINOバックエンドを対象に、Armが未対応だったPaged Attentionというメモリ効率化手法をSVE2を活用して実装し、スループットを大幅に向上させました。これらの改善はArm標準の機能を使用しているため、「FUJITSU-MONAKA」だけでなく、他のArm CPUを用いた場合にも有効です。

OpenBLASについては、マルチスレッドで行列演算を行う際、各スレッドが処理する行列ブロックができるだけ正方行列に近づくよう、行列分割ロジックを改善しました。従来のロジックでは、各スレッドが扱う行列ブロックが極端な長方行列になるケースが多く、性能スケーラビリティが限られていましたが、今回の修正により大幅に改善されています。この成果は、Arm CPUだけでなくx86など異なるアーキテクチャのCPUでも有効であり、幅広いユーザーがその恩恵を受けられる貢献となっています。

今回紹介した性能改善に関するPull Requestや、vLLMの性能改善についてISC25で発表されたポスターへのリンクを以下に記載しますので、詳細に興味のある方はぜひご覧ください。

Pull Request: llama.cpp, vLLM, OpenBLAS
ISC25ポスター発表: Enabling vLLM on ARM for scalable LLM inference on resource-constrained servers

AIの産業利用に向けた研究開発

ここまでは主に性能に関する情報をご紹介してきましたが、このスライドでは、AIの産業活用に向けた取り組みとしてサロゲートモデルに関する研究開発について紹介しています。サロゲートモデルとは、シミュレーションを代替(Surrogate)するAIモデルを指します。富士通では、サロゲートモデルのユースケースとして、製造業におけるCAEデザインのコスト削減と効率化を目指した研究開発に取り組んでいます。現在、CAEデザインではシミュレーションが用いられていますが、シミュレーションは計算コストが高く、設計の後期段階で行うのが一般的です。今後も高精度なシミュレーションの必要性は変わらないと考えていますが、サロゲートモデルを導入することで、シミュレーションの低コスト化が期待できます。低コスト化が実現されると、設計の初期段階からシミュレーションを行うことが可能となり、早期の設計検証によるCAEデザイン全体の効率化も図れると考えています。

一方、このユースケースの実現に向けては、サロゲートモデルの精度と汎用性を高めることが大きな課題です。富士通ではこれらを高めるため、Graph Neural Network (GNN) を活用したサロゲートモデルの構築に取り組んでいます。OpenFOAMとGNNを用いて2Dシミュレーションを比較した初期実験では、様々なオブジェクトの位置や形状に対して高い精度を示すことができました。現在は、より高度な3Dシミュレーションに対応する、高精度かつ汎用性の高いサロゲートモデルの構築を目指し、研究開発に取り組んでいます。また、富士通のKozuchi Research Portal「AIサロゲートモデル検証プラットフォーム」から研究開発成果をお客様に利用いただけるよう、公開の準備を進めております。

「富岳NEXT」

「富岳NEXT」プロジェクトでは2030年の運用開始に向けて、日本の優れた技術を生かしながらグローバルな開発連携を行うMade with Japanの考えのもと理化学研究所様、NVIDIA様と協業し、CPUとGPUのタイトな統合によるHeterogeneousなノードで、アプリケーション性能を100倍以上向上させる技術的ブレークスルーを目指しています。さらに、持続可能なソフトウェアエコシステム、アプリケーションのモダナイゼーション、そして先進的な省エネルギー運用技術を通じて、持続可能性と継続性も重視しています。

「富岳NEXT」エコシステムの究極の目標は、「AI for Science」の手法を通じて科学的進歩を加速することにあります。先進的な計算科学とAI技術におけるR&Dリーダーシップを確立し、計算資源を継続的に提供することで、日本の科学技術の未来を力強く支えます。

「富岳NEXT」のプロジェクト概要

性能仕様

本展示では、スーパーコンピュータ富岳に対する「富岳NEXT」の性能向上について説明しました。

主な仕様比較ポイント

  • ノード数: 「富岳NEXT」は3,400ノード以上、「富岳」は158,976ノードとなっており、ノード数だけを見ると「富岳」が多いですが、以下で説明する各スペックから分かるように、「富岳NEXT」の各ノードが大容量・高性能化されています。
  • FP64 Vector性能: 「富岳NEXT」のCPUは48 PFLOPS以上、GPUは2.6 EFLOPS以上を誇ります。これは「富岳」のFP64 CPU性能537 PFLOPSと比較して、GPU部分で約4.9倍の性能向上に相当します。
  • FP16/BF16 Matrix性能: 特にディープラーニングなどのAIワークロードで重要となるFP16/BF16 Matrix性能においては、「富岳NEXT」のGPUは150 EFLOPS以上を達成しており、「富岳」のCPU性能2.15 EFLOPSと比較すると、驚異的な約70.5倍もの大きな向上を示しています。
  • FP8 Matrix性能: 新たにFP8 Matrix性能が示され、「富岳NEXT」のCPUで3.0 EFLOPS以上、GPUで300 EFLOPS以上とされています。さらに、GPUではFP8 Matrixの疎行列性能として600 EFLOPS以上という、非常に高い値が示されており、これは最先端の機械学習モデルにおいて重要な性能指標となります。
  • メモリ容量: メモリ容量は「富岳NEXT」のCPUおよびGPUともに10 PiB以上を搭載しており、「富岳」の4.85 PiBと比較して、約2.06倍に増加しています。
  • メモリ帯域幅: メモリ帯域幅は「富岳NEXT」のCPUで7 PB/s以上、GPUで800 PB/s以上を達成しています。「富岳」の163 PB/sと比較して、GPU部分で約4.9倍の高速化が図られています。

「富岳NEXT」の性能仕様

ハードウェア構成

「FUJITSU-MONAKA-X」プロセッサ

「富岳NEXT」 に採用される「FUJITSU-MONAKA-X」は、AIとHPCに向けて最適化したArmベースの次世代プロセッサであり、CPUとGPUの密結合によってAI-HPCの性能を最大限に引き出すことを目指しています。

まず、HPC向けの最適化として、次世代の3Dメニーコアアーキテクチャと1.4nmプロセス技術を採用します。さらにSIMD機能拡張による高速化を図るとともに、A64FXや「FUJITSU-MONAKA」プロセッサで動作する既存のHPCアプリケーションとの互換性を確保します。AI処理の加速では、低精度行列演算を可能とするArm Scalable Matrix Extension 2(SME2)を世界で初めてサーバー向けArm CPUに実装し、GPUとの協調によりアプリケーション性能を強化します。加えて、省電力性と信頼性の面では、超低電圧制御、Confidential Computingによるセキュリティ強化、RAS機能によって高い信頼性を提供します。

CPUとGPUの統合にはNVLink Fusionを用い、高帯域幅・低レイテンシ・メモリコヒーレントなアクセスを実現することで、AI-HPCの融合ワークロードを加速します。CPUは複雑な制御フローやレイテンシに敏感な処理、不規則なメモリアクセスを得意とし(例:シミュレーション、リアルタイムAI、マルチモーダル処理、信号処理、データベースアクセス)、GPUは規則的なメモリアクセスにもとづく大規模なデータ並列に強く(例:大規模DL/ML学習、大規模グラフィック処理)、両者の組み合わせにより、シミュレーションからAIまで幅広い処理を効率的に実行できます。

「富岳NEXT」のインターコネクト

「富岳NEXT」のコンピュートノードは、富士通製CPU「MONAKA-X」とNVIDIA GPUを複数搭載した構成を基本としています。これらのCPU、GPUの間には、複数のGPU間やCPU-GPU間で密な連携を行うためのスケールアップネットワークが構築されます。これは、単一のノード内での高性能なデータ転送と協調計算を可能にし、特にAIの大規模モデル学習など、高速な内部通信を要求するワークロードに威力を発揮します。

一方で、複数のコンピュートノード間を結びつけるのがスケールアウトネットワークです。これは、システム全体のノード数を拡張し、広範囲に分散された計算を効率的に実行するためのネットワークであり、大規模なHPCシミュレーションや、多数のAI推論ジョブを並行して処理する際に重要な役割を果たします。「富岳NEXT」では、これら二つの性質の異なるネットワークをシームレスに統合することで、システムの柔軟性と効率性を最大化します。

AI-HPCプラットフォームでは、このスケールアップとスケールアウトの統合が極めて重要です。「富岳NEXT」のネットワークは、これら両方の特性を組み合わせることで、AIとHPCが緊密に連携する統合ワークロードにおいて、最適なパフォーマンスを発揮できるよう設計します。例えば、HPCシミュレーションの結果をAIで解析・予測したり、AIが生成したモデルをHPCで検証するといった、複雑なタスクをスムーズに実行できます。

アプリケーション性能100倍に向けたソフトウェア技術の展望

前述の通り、「富岳NEXT」は「富岳」と比較して、AI分野で良く用いられる低精度演算の性能が大幅に向上する一方で、精度を必要とする科学計算で用いられる倍精度演算の性能は5倍程度の向上に留まる見込みです。それに対し、「富岳NEXT」ではアプリケーション性能の最大100倍向上という野心的な目標を掲げています。この目標を達成するには、ソフトウェアによるアプリケーションの高速化が不可欠です。今回の展示では、この高速化を実現するためのソフトウェア技術についてご紹介しました。本記事では、それらの中で特に注目すべき三つの技術について紹介します。

アプリケーション性能100倍に向けたソフトウェア技術の展望

一つ目は、AIを活用したシミュレーションの飛躍的な高速化です。後述する技術を用いたアプリケーションの高速化も有効ですが、100倍という目標の達成には、より根本的なアプローチが必要です。「FUJITSU-MONAKA」の展示で紹介した通り、富士通はサロゲートモデルの研究開発に注力しています。加えて、精度を維持しながらモデルを軽量化(量子化)する技術の開発も進めています。これらのAI技術の活用が目標達成に不可欠であり、今後もAI適用領域の拡大とさらなる高速化を進めていきます。

次に、CPUとGPU双方の利点を最大限に引き出すアプリケーション高速化です。「富岳NEXT」においてはGPUが演算性能の大部分を占めますが、CPUと連携した最適化を行うことでアプリケーション性能が大幅に向上する事例が研究で示されており、両者の有効活用は今後ますます重要になってきます。富士通は、MONAKA-X単体でのアプリケーション高速化を可能にするコンパイラ、数学ライブラリ、AIフレームワークの開発に加え、MONAKA-XとNVIDIA GPU、そしてこれらをつなぐNVLink Fusionを組み合わせることで、アプリケーション性能を最大化するための研究開発にも取り組んでいます。

三つ目は、GPUの低精度演算器を用いた高精度演算の高速化です。Ozaki Schemeと呼ばれる技術を用いることで、低精度演算器を用いて高速に高精度演算を行うことが可能になり、NVIDIA GPUが持つ優れた低精度演算性能を科学技術計算に活かすことが出来ます。Ozaki Schemeは、特に行列演算の高速化に大きな効果を発揮し、現在も活発な研究が進められています。富士通は、Ozaki Schemeの様々なアプリケーションへの有効性を検証するとともに、MONAKA-Xの高い低精度演算性能への適用可能性についても検討を進めています。

これらの技術は現時点での想定であり、今後の詳細設計や研究の進捗によって変更される可能性がありますが、研究開発を進めるとともに最新の研究動向にキャッチアップしていくことで、「富岳NEXT」プロジェクトの目標達成に貢献していきます。

テクニカルセッションや展示で見えたAI×HPCの未来

展示説明の合間にテクニカルセッション聴講や他の展示見学をしました。その中から興味深かった内容をいくつか紹介します。

AI×HPCワークフロー実行を最適化するプラットフォーム

近年、AI と HPC を組み合わせることで科学的発見を加速させる取り組みが活発に行われており、これらは一般にワークフローとして定義・実行されています。こうしたワークフローは、従来の長時間実行される大規模 MPI ジョブのみで構成されるのではなく、短時間で終了する Python スクリプトや、小規模ながら多数同時に実行される AI 推論タスクなど、従来の HPC ジョブとは異なる性質を持つタスクを含むものもあります。SC25では、このようなワークフローおよび各タスク実行を最適化する研究(Integrating and Characterizing HPC Task Runtime Systems for hybrid AI-HPC workloads)に関する発表があったため、その内容を紹介します。

多くのシステムでは、上記のようなワークフローを構成する各タスクをジョブとして扱い、その実行に Slurm などのバッチジョブスケジューラを用いています。しかし、Slurm(特に srun による起動)は、同時実行数や起動スループットに制約があり、短時間で多数のタスクを実行するようなワークロードでは、タスクの起動待ちが支配的になる場合があります。その結果、確保された計算資源が十分に活用されず、ワークフロー全体の実行時間(makespan)に影響を与えることがあります。

本論文では、Flux および Dragon と呼ばれるタスクランタイムシステムを採用し、これらを RADICAL-Pilot(RP)を介して統合することで、この課題に対処しています。RP は、ワークフローツールやアプリケーションから利用される実行基盤として機能し、タスクの性質に応じて実行ランタイムを使い分けられる Python APIを提供します。MPI ジョブの実行には HPC 向けの機能を備えた Flux を、短時間で大量に実行される推論やスクリプト処理には軽量な Dragon を用いることで、ワークフローの特性に応じた実行が可能となる構成です。

創薬分野の実ワークロードである IMPECCABLE を用いた評価では、Slurm(srun)を用いた場合と比較して、ワークフロー全体の makespan が約 30〜60% 短縮されることが示されています。高速化というと、アプリケーションそのもののチューニングに焦点が当たりがちですが、本研究は、実行ランタイムを適切に使い分けるだけで、AI×HPC 混成ワークロード全体の実行時間を大幅に削減できる可能性を示している点が興味深いと言えます。 本研究で用いられている RADICAL-Pilot(RP)は、それ自体がワークフロー記述言語やワークフローエンジンを提供するものではなく、ワークフローツールやアプリケーションから利用される実行基盤として設計されています。RP は、Parslなどのワークフローツールが既に対応しており、アメリカエネルギー省およびアメリカ国立科学財団のプロジェクトで利用されてきた実績があります。ワークフローの制御や依存関係の管理は上位ツールに委ねつつ、実行部分のみを RP が担うという役割分担を行うことで、個々のアプリケーションが実行最適化を抱え込むことなく、汎用的な実行基盤として活用できる点も本アプローチの特徴です。

AI×HPC時代のインターコネクト

「富岳NEXT」で構築するスケールアップネットワーク、スケールアウトネットワークの統合は、AIとHPCを融合したシステムにおいて一般的にも注目されている技術です。Birds of a Featherセッション“UALink and Ultra Ethernet: Addressing AI Networking Challenges in an Open Ecosystem”では、これらのネットワークの標準化に向けた動きついて活発な議論が繰り広げられました。

モデルサイズの急激な上昇により、AIシステムのネットワークではバンド幅による制限が大きな課題になります。加えてAIワークロードではGPU間の同期通信が鍵であり低レイテンシな通信が求められます。このような要件を満たすネットワークをオープンな規格として標準化する動きがUltra Accelerator Link(UALink)です。UALinkはスケールアップネットワークに焦点を置いた規格であり、多くのGPUを繋いでソフトウェアには1つのGPUとして見せ、GPU間に共有アドレス空間を持たせます。本セッションでは、UALinkの仕様として初めて2025/4に公開されたUALink 200G 1.0 Specificationについても紹介されました。

本セッションではもう一つ、スケールアウトネットワークとしてUltra Ethernet Consortiumが標準化を進めるUltra Ethernet(UE)について取り上げられ、2025/6に公開されたUltra Ethernet 1.0 Specificationについて紹介されました。既存のネットワーク仕様は20年以上前からあるものが多く、コンピューティング性能の向上によりより複雑な処理も可能になった現代では最新化した仕様が必要です。セッションでは、Lossy Operationをサポートしてデータの損失を許容しオーバヘッドを削減する、アウトオブオーダ配信やパケットごとのマルチパス転送によるロードバランシングを行う、Cluster-wide keyingやzero state replay protectionといった組み込みセキュリティをサポートするなどのUE1.0の特長について説明がありました。

高帯域・低レイテンシを実現するメモリ技術

“Energy-efficient Memory Technology for Maximizing Bandwidth and Reducing Latency”というセッションでは、メモリの重要性や今後の方向性について議論されました。その内容を紹介します。 近年、コンピューティング性能とメモリ性能の格差(メモリウォール)が拡大し、メモリは性能を決める大きな要因の一つとなっています。大規模言語モデルの推論やHPCGをはじめ、多くのアプリがメモリ帯域を必要とする一方で、帯域拡大には大きな課題があります。それはデータ移動に伴うエネルギー消費です。帯域を増やすほどデータ移動エネルギーも比例して増加し、熱や電力効率の限界に直面します。したがって、帯域を伸ばすにはエネルギー効率の改善も必要になります。

データ移動エネルギーを低減する有効な手段は「すべてをできるだけ近くに詰め込む」ことであり、ウェハースケール、2.5D/3D実装やチップレットなどの先進パッケージングが推進されています。大容量メモリを至近距離に置いてアクセスを最短のデータ移動で実現することが目標ですが、その時の最大の課題は熱です。積層により電力密度が高まり、高度な冷却が必要となります。さらにレイテンシも重要な課題です。帯域だけ増加させても、レイテンシが悪化するとインフライト数が増加し、それを隠蔽する大量のバッファを必要とすることで、新たな制約を生みます。

メモリシステムが進化する中で、その性能をどう引き出すかはハードウェア・ソフトウェア・アプリケーションをまたぐ課題となっています。従来のDRAMからHBMやCXLなどへとメモリが多様化する中、ハードウェアの能力をどう使い切るかという大きなチャンスに直面していることも議論されました。また、Big-O記法のような計算量中心の見方では足りず、帯域・メモリ・通信等を織り込んだアルゴリズムを考え直すべきだという問題提起もありました。

まとめ

「FUJITSU-MONAKA」や「富岳NEXT」の展示では、富士通が独自にCPUのマイクロアーキテクチャ設計していることに興味を持たれた方が多く、これまでの長いプロセッサ開発で培ってきた技術が強みの一つであることを実感しました。また、「富岳NEXT」に関しては、日本国内だけでなく、国外の方からも注目しているとの声をいただき、今後の設計・開発を進めるうえでの励みにもなりました。セッション聴講や展示見学で得られた知見を活かし、今後ともソフトウェアとハードウェアの両面から「FUJITSU-MONAKA」および「富岳NEXT」の開発に取り組んで参ります。


  1. FUJITSU-MONAKA: この成果は、NEDO (国立研究開発法人新エネルギー・産業技術総合開発機構) の助成事業の結果得られたものです。