はじめに
こんにちは、富士通研究所 コンピューティング研究所の大辻弘貴です。今回は、ジョージア州アトランタで開催されたACM/IEEE SC24(正式名称:The International Conference for High Performance Computing, Networking, Storage, and Analysis)の参加報告をお届けします。この会議は、スーパーコンピュータに関する世界最大の国際会議であり、AI Computer Broker(ブログ記事, 動画, PDF)やインタラクティブHPC(動画, PDF)をはじめとする技術の展示や発表を行いました。
ACM/IEEE SC24とは?
ACM/IEEE SC24は、毎年北米で開催されるスーパーコンピュータに関する世界最大規模の国際会議です。この会議は、スーパーコンピュータの各種ランキングが発表される場でもあり、論文発表だけでなく、広大な展示スペースが併設されていることが特徴です。今年は過去最多である18,000人以上が参加し、非常に活気に満ちたイベントとなりました。
会議におけるトレンド
ランキングの動向
今年のTop500ランキングでは、新たに登場した米国ローレンスリバモア国立研究所のEl Capitanが1位となりました。AMDの新しいアクセラレータMI300Aを搭載したEl Capitanは、ベンチマーク性能(HPL)において1.742 EFlop/sを記録し、消費電力は29.6MWとなっています。この消費電力は大きいように感じられますが、例えばTop500ランキング3位のAuroraは38.7MWの消費電力で1.012EFlop/sであることから、El Capitanは電力あたりの性能も優れていると言えます。このほかに日本からは、ソフトバンク社のCHIE-2とCHIE-3が16位と17位に、JCAHPC(東京大学・筑波大学)のMiyabi-Gが28位に新登場しました。2020年6月に1位で登場した「富岳」は今回のランキングでは6位となりました。
展示の動向
生成AIブームの影響により、電源・冷却系の展示が増加しています。生成AIに使用されるアクセラレータは1つで1000W近く消費するものもあり、これらを複数搭載したサーバが一般的になりつつあります。そのため、ラック当たりの電力や熱量の密度が高まり、電源や冷却の高度な技術が求められています。この結果、電源装置や水冷装置・部品のメーカーがここ数年で目立つようになりました。
また、メモリ拡張技術としてCXL (Compute Express Link)の応用が見られました。CXLは様々なデバイスを接続するための規格の一つで、特にメモリ拡張への応用が注目されています。生成AIモデルの大規模化に伴い、メモリ量の課題を解決するために、メモリの共有が今後重要になってくると考えられます。
富士通技術の展示・発表
富士通ブースの紹介
富士通のブースでは、GPUを効率的に利用するためのミドルウェア技術ACB (AI Computing Broker)、スパコン上で大規模ジョブの即時実行を可能にするInteractive HPC技術、富士通製ARMプロセッサMONAKA、量子コンピュータの展示を行いました。量子コンピュータについては1/2サイズのモックアップを展示し、多数の来場者が写真を撮影するなど人目を引いていました。
コンピューティング基盤技術の紹介
展示のうち、私が展示説明を行ったコンピューティング基盤技術の内容をご紹介します。
- インタラクティブHPC
LLMをはじめとする生成AIは、その性能を高めるために急速に大規模化が進んでいます。この結果、これまで大規模な計算環境に馴染みのないAI研究者・開発者であっても、スーパーコンピュータをはじめとする並列計算機を必要とする機会が増えてきました。しかしながら、原則として処理を順番通りに実行(バッチ実行)するスーパーコンピュータは待ち時間の発生が避けられず、クラウドを利用して動的に資源を確保してきたこれらの新しい利用者にとっては使いやすいものとは言えませんでした。そこで私は大規模な処理でも即時実行が可能になるインタラクティブHPC技術の研究開発に取り組み、スーパーコンピュータをより多くの方に効率的に使っていただくことを目指しています。展示では1000ノード級クラスタにおける複数の並列プログラムの時間分割動作デモや、デジタルツインアプリケーションにおける施策探索が高速化されることを示しました。実際にスーパーコンピュータを運用している皆様からも、インタラクティブHPC技術の導入による効果に対して期待が寄せられ、好評を博しました。
- ACB
GPUは一般的に一度あるアプリケーションに割り当てられると、アプリ終了まで解放されません。しかし、実行中に常に100% GPUが使用されているとは限らず、空き時間が生じることがあります。ACBは、PytorchなどのAIフレームワークのレベルでGPU共有を実現するミドルウェア技術で、この空き時間を有効活用します。デモでは、AlphaFold2やLLM推論など複数の処理を限られたGPU数で効率的に実行できることを示しました。GPU不足が多くの企業や計算センターにおいて課題となっていることもあり、本技術についても質問や問い合わせを多数いただきました。
産学連携の取り組み
- 東京科学大ブース発表
東京科学大様の展示ブースにおいて、インタラクティブHPC技術の紹介と、その応用事例であるデジタルツインアプリケーションのTSUBAME上における稼働について講演を実施しました。この講演においては各技術の詳細を説明するとともに、東京科学大学様のTSUBAME4.0上においてインタラクティブHPC技術を展開した上でデジタルツインアプリケーションを実行した事例をご紹介し、スーパーコンピュータにおいても容易に処理の即時実行が可能になることで、従来よりも効率的に施策探索が可能になることを示しました。
- 筑波大学ブースにおける展示およびPDSW24発表
AIの大規模化が進むにつれてデータの入出力に求められる要求も高まってきます。 この要求にこたえるために筑波大学様と高性能なデータストアに関する共同研究を行っています。この取り組みのうち、高速RPC(遠隔手続き呼び出し)技術に関する発表をPDSW (Parallel Data Systems Workshop) 2024で行いました。複数のコンピュータにより構成される高性能なデータストアは、外部とのやり取りや内部のデータ操作のためにネットワークを介した処理の実行が不可欠です。従来に比べて圧倒的な性能を発揮するデータストアシステムを実現するためには、通信とデータ操作を密に結合した新しい仕組みが必要であると考えており、RDMA(遠隔直接メモリアクセス)と高並列処理機能を備えた高速RPC技術を研究開発しています。また、筑波大学様のブースにおいても共同研究に関するポスターを展示し、高性能データストアシステムに関する産学連携の取り組みや成果を示しました。
まとめ
生成AI技術の普及により、計算機そのもののみならず、冷却や電源など幅広い領域の出展が増えており、技術のすそ野の広さを感じる機会が増えてきました。ランキングにおいては、引き続きトップの入れ替わりが起こっており、積極的な研究開発が進んでいることが実感できました。日本も引き続きスーパーコンピュータの領域でのプレゼンスを発揮しており、私も計算基盤領域における研究開発の取り組みを通じて、継続的に貢献していきたいと考えています。