ISC High Performance 2023に現地参加しました

こんにちは、富士通研究所コンピューティング研究所の小田嶋哲哉です。文部科学省の科学技術試験研究委託事業「次世代基盤に係る調査研究」の一環として、2023/5/21～5/25にハンブルク,ドイツで開催された国際会議ISC23（https://www.isc-hpc.com/）に現地参加し、コンピューティング基盤の動向調査を行ってきました。今回は、その動向調査結果と注目した論文発表について報告します。

ISC概要

ISC High Performance（以降「ISC」）は例年5月にヨーロッパで開催されているHPC（High Performance Computing）に関する大規模な国際会議および展示会です。今回の論文発表の分野については、AI/MLを含めたアプリケーション・アルゴリズム、量子コンピューティングやコンピュータアーキテクチャと、分野が幅広いです。その他にも、関連するBoFやフォーカスセッションを含め多数のセッションがありました。今回はCOVID-19の影響が大幅に緩和されたため、現地参加者は3000人以上と以前の規模に戻ってきたと感じました。これまで、国際学会への参加を避けていた人も徐々に戻ってきており、久しぶりに会った大学・企業の先生方とも直接議論することができ、非常に有意義な会議でした。

オープニングセッション（©︎ISC High Performance 2023）

Coffee Breakの様子（©︎ISC High Performance 2023）

Keynote: Reinventing High Performance Computing

コンピューティング領域はアプリケーションからハードウェア、物理実装まで変化が激しい時代です。特にHPCの分野ではこれまで以上に高い性能を達成するためには、デナード則の終焉（トランジスタがシュリンクしても電力が下がりにくくなった）とムーアの法則の鈍化（2年ごとの半導体集積率が2倍を下回っている）が挙げられて久しいですが、高額な最先端技術によって開発されたプロセッサを多数搭載せざるを得ないという実情があります。しかし、2023年6月のTOP500リストでは、そのTOP10に新しいシステムが登場しなかったことが象徴しているように、システムの性能向上頻度が減退しています。この要因として、多額の投資（資金）がHPC分野ではなくハイパースケーラを代表とするAIやCloud分野に集中している事が挙げられます。これらの企業は、非常に高い演算性能を有するシステムがあるにも関わらず、その性能を外部に公表していないため、表面的には性能向上が鈍化しているように見えても、水面下では総演算性能は刻々と向上していることに留意しなければならないです。

ハードウェアの進化によって、システムの性能は向上していますが、アプリケーションはその速度についていけていないことにも警鐘を鳴らしています。現在のシステムは、演算のためのコア数が爆発的に増加しているため、アプリケーションに要求される並列性も更に高くなっています。そのため、アプリケーションの並列性が足らないとシステムの性能向上に比例したアプリケーションの性能向上（Strong Scaling）が得られません。一方で、問題サイズや時間発展方向のループを増加させることでWeak Scaling性能を向上させることについても、これまで以上に膨大な量が必要になるため、安易に向上するということはありえない時代になっています。そのため、ハードウェアだけでなくアプリケーションも時代に合わせたアルゴリズムの変更など劇的な進化が必要になるということが重要視されています。

TOP500とGreen500

TOP500は、HPL（High Performance Linpack）と呼ばれる共通のベンチマークを用いて、システムの演算性能をランキングするAwardです。ISC23では開始からちょうど30周年を迎え、これまでの性能向上の軌跡を示しています。先述の通り、TOP10システムに入れ替わりはありませんでした。1位のFrontierがシステムを若干増強したため1.194EFLOPSに、4位のLeonardoも同様にシステムを増強したため238.7PFLOPSに性能向上しただけです。今回のランキングにアルゴンヌ国立研究所のAuroraが登場すると思われていたにも関わらず、それがなかったことがリスト更新停滞の要因の1つです。AuroraはIntel社製CPUとGPUで構成されるシステムで、その性能は2EFLOPSを超えると言われています。これは現在の1位の2倍に近い値であり大幅な更新が期待されたが、度重なる遅延が発生しています。Intelはハードウェアの出荷をほぼ完了しており、システム自体はすでに段階的に稼働していたり、ストレージ性能などは別の会議で報告されたりしているため、次回（2023年11月）にはほぼ確実に登場するはずです。

富士通製A64FXプロセッサを搭載した理化学研究所のスーパーコンピュータ「富岳」は現在も2位にランクインしており、その高い演算性能を今も示しています。TOP500以外のHPCGやGraph500といったAwardでは引き続き1位をキープしています。特に、Graph500では、今回のランキングで更に性能を向上しており、引き続き富岳の高いコンピューティング性能が様々な分野で発揮され続けていることが示されていると考えています。

一方Green500は、TOP500にランキングされたシステムを対象とした、電力性能（FLOPS/W）を指標としたランキングである。近年、システムの要求電力が大幅に増加しているため、限られた電力バジェット（制限）の中でより高い演算性能を達成するために重要な指標として注目が集まっています。TOP10に着目すると、すべてのシステムがGPUを代表とするアクセラレータを搭載したシステムであることがわかります。TOP500も同様に富岳以外はアクセラレータを搭載しているという状況から、高い電力性能を達成するにはアクセラレータが必須の時代になっているということが示されていると考えます。

TOP500セッション（©︎ISC High Performance 2023）

世界のスーパーコンピュータ動向

ここでは、米国と中国におけるスーパーコンピュータの今度についてまとめます。

まず、米国についてですが、エクサスケールシステムとしてすでにFrontierが稼働していますが、前述のAurora、ローレンスリバモア国立研究所のEl Capitanが数年以内に稼働する予定です。Auroraは「近うちに」すべてのコンピュートノードの設置が完了し、2023年Q3には初期ユーザへ環境が提供開始される予定です。El CapitanはAuroraとは異なり、AMD社製のCPUとGPUを統合したAPU MI300Aを搭載した2EFLOPS級のシステムになる予定です。システムは2025年頃から稼働し、2030年頃までに活躍する予定です。本会議における発表では、ラックに搭載されるブレードの画像が公開されており、1枚のブレードに4つのMI300A APUが搭載される非常に密度の高い実装であることがわかりました。

中国においては、2016年に登場したSunway TaihuLightを最後に、以降新たなシステムの性能を公表しなくなりました。一方で、SC21のGordonBell AwardではSunwayの新型システムを活用した研究が賞を獲得しており、新たなシステムが開発されていることは確かです。本会議のHPC in Asia-Pacificセッションにおいて、中国のYutong Lu博士からは中国のスーパーコンピュータシステムの性能を公開できないことは非常にもどかしいという発言もあり、様々な事情があるものと考えられます。

注目した論文発表

ISCは11月に開催される国際学会SCと比較すると研究発表論文の割合は少ないですが、非常にクオリティの高い論文が集約されているとも言えます。対象の分野は、アプリケーションからアーキテクチャ、量子コンピュータと広範囲です。ISC23では、78件（うち6件が日本から）の投稿に対して、21件（うち2件が日本から）が採録されました。採択率は27%と非常にハイレベルな国際学会です。

その中からここでは、Best Paperに相当するHans Meuer Awardを受賞したDolores Miaoらによる「Expression Isolation of Compiler-Induced Numerical Inconsistencies in Heterogeneous Code」の論文に触れたいと思います。

本論文の概要は、Cielと呼ばれるツールを用いて、対象とするアーキテクチャやコンパイラ最適化によって生じるプログラムの数値矛盾を検出するものです。様々なベンチマークから実アプリケーションまでを対象とした評価では、その検出率は99.4%と非常に高い割合を記録しています。

コンパイル前のプログラムに対するエラーを検出ツールはこれまでにいくつか存在することを知っていましたが、コンパイル後のコードに対して高速な検出が可能なものは珍しいと感じました。Cielの実装では、複数のコンパイラやコンパイルフラグの組み合わせから得られた結果に対して、結果を比較することで部分的な不一致を検出し、逆換算してエラーが発生した場所をユーザに提示します。比較的シンプルな手法であることから、非常に高速かつ高い精度で動作していると考えられます。

ISCでは、ここ直近のBest Paperの傾向として、大規模アプリケーションの評価や新しいハードウェアではなく、既存のハードウェアの上でいかにユーザが手軽に、高速にアプリケーションを実行できるかという物が多いと感じています。近年のアクセラレータを搭載したシステムがデファクトスタンダード化してきている状況から、受賞論文がヘテロジニアスシステムにおいて、年々複雑化するコード移植における課題を、高速かつ高いエラー検出率によってユーザを補助することが期待された結果、Awardを受賞したと考えました。

参考論文： https://link.springer.com/chapter/10.1007/978-3-031-32041-5_20

AI時代に向けた富士通研究所の取り組み

これまでのスーパーコンピュータは、その高い演算性能を用いて極小の物理現象や大規模な自然現象のシミュレーションといった科学技術計算を高速に実行するために活用されてきました。一方で、現在のスーパーコンピュータには、科学技術計算を加速するだけでなく、大規模言語モデルを代表とするAI/ML分野の加速が求められています。富士通研究所では、スーパーコンピュータ「富岳」における大規模言語モデルの高速化に取り組みます。富岳は現在、世界で第2位の演算性能を誇るスーパーコンピュータであり、この高い演算性能をAI/MLで効率的に利用することができれば、様々な分野におけるAIの基盤システムとして利用することができると期待されています。一方で、富岳はCPUのみを搭載するシステムですが、TOP500の上位10に位置するシステムの多くはアクセラレータを搭載しています。CPUは、様々なアプリケーションに対応することができる高い汎用性を持っていますが、特に、AI/MLの分野で高効率な実行を行うためにはGPUなどのアクセラレータがより有効とされています。今後、AI/MLに求められるデータ量は飛躍的に増加することが考えられます。そのため、これまでのシミュレーションとAI/MLの高速化を両立するためには、CPUの機能強化だけでなく、典型的な科学技術計算カーネルを加速することができるアクセラレータの搭載が必要な時代になってきていると私は考えます。

おわりに

ChatGPTを代表とする、AI技術を活用したソリューションが身近になっていると感じます。HPCの領域でも、AIを加速するためのアプリケーション・アルゴリズムやハードウェアの開発が盛んです。本会議でも、GPT-4を代表とするLLM（Large Language Model）に触れる発表が多かったと感じました。特にLLMは、以前は考えられなかった規模のモデルを高い演算性能を発揮するハードウェアでトレーニングしたところ、得られる結果が爆発的に良くなったという背景があり、今後もAIを強化するためのコンピューティング基盤の重要性を強く感じました。