はじめに
富士通研究所で並列計算基盤技術を担当している大辻弘貴です。今日はAI・LLM研究開発用のGPUクラスタ “Ashitaka” についてご紹介します。
AI技術の進化は日進月歩であり、その研究開発競争においては、計算資源の確保が極めて重要です。特に、GPU(Graphics Processing Unit)はAIモデルの学習や推論において欠かせない要素となっています。GPUといえばNVIDIA製が有名で、富士通もNVIDIA GPUを活用したAIの研究開発を実施していますが、新たにAMD製GPUを活用したクラスタも構築しました。今回は、AIの研究開発においてAMDのGPUを採用した理由と、その背景にある技術的な取り組みについてご紹介します。
GPU計算資源の重要性
AIの研究開発において、GPUは高い演算性能を提供し、大規模なデータセットを用いたモデルの学習を可能にします。 GPUについては特に演算性能に関心が集まる傾向がありますが、全体の性能は演算性能だけでなくモデルが配置されるメモリの容量・性能も重要な要素となります。メモリ容量が大きいほど大きなモデルの学習や推論が可能となり、メモリのアクセス性能が高いほど特に推論性能が向上します。
AMD GPUを採用した理由
今回構築するAIシステムにおいてAMDのGPUを採用した理由はその優れたメモリ性能にあります。具体的には、構築計画時点においてAMDのGPUはNVIDIAのH200世代GPUと比較してメモリ容量は36%多く、メモリバンド幅も10%高いという特徴がありました。これにより、大きなモデルの学習・推論がより少ないGPU数で可能になる大きなアドバンテージを得られます。
スパコン構築のノウハウを生かしたGPUクラスタ構築
AMD GPUを採用したシステムは、日本のスパコン市場では海外に比べて実績が少ない現状がありますが、先月米国で発表されたスーパーコンピュータランキング(Top500)でもAMDは1位の新規獲得を含めTop10のなかで5システムがランキングに入るなど、海外での実績を積み重ねてきています。また、富士通にはこれまで最先端のコモディティアーキテクチャを活用してスパコンを構築してきた実績があります。例えば、JCAHPC様のOakforest-PACSおよび後継のMiyabi、産総研様のABCI 1.0/2.0などのプロジェクトで培ったノウハウを活かし、最先端の機材を用いて実用的なシステムを構築することが可能です。
既にAMD GPUシステムにおいて大規模日本語LLMの推論を十分な性能で実行できる目途が立っており、大規模AIモデルに適したクラスタシステムを実現できる道筋がついています。
学習とオンデマンドな推論処理の混在を実現するミドルウェア技術
AIの研究開発においては、学習処理が常に100%の資源を使用するわけではありません。富士通では、独自技術を活用したミドルウェア環境を導入することで、即時性を求められる推論処理とバッチ的な動作をする学習処理を共存させ、計算資源の利用効率を最大化していきます。
具体的には、ACB(ブログ記事, 動画, PDF)とインタラクティブHPC(動画, PDF)技術を組み合わせることで、限られた数のGPUを複数のプログラムで共有し、動的にGPUリソースを割り当てることが可能です。これにより、GPUメモリ量を超えるアプリケーションを並行実行でき、大規模なAIアプリケーションの効率的な実行が実現します。
今後これらの技術を駆使してAI研究開発および運用における計算資源の最適化を図り、より高度なAIソリューションを提供していきます。