Please enable JavaScript in your browser.

fltech - 富士通研究所の技術ブログ

富士通研究所の研究員がさまざまなテーマで語る技術ブログ

HOT CHIPS2024に参加しました

こんにちは、富士通研究所コンピューティング研究所の児玉宏喜です。文部科学省の科学技術試験研究委託事業「次世代基盤に係る調査研究」の一環として、2024年8月25日~27日にスタンフォード大学(アメリカ)で開催された国際会議HOT CHIPS 2024 (https://www.hotchips.org/) に現地参加し、コンピューティング基盤の動向調査を行ってきました。本投稿では、注目した論文やキーノートについて紹介します。

HOT CHIPS2024概要

HOT CHIPSは、1989年に開始された高性能マイクロプロセッサと関連する集積回路に関する半導体業界を代表するカンファレンスのひとつです。第1回から米国のスタンフォード大学で開催されています。近年は、現地参加とバーチャル参加の両形態で参加が可能です。セッションは、2つのチュートリアル、2つの基調講演(Key Note)、4つにカテゴライズされた24のプレゼンテーション、15のポスターセッションで構成されていました。4つのカテゴライズは、AI (Artificial Intelligence) Processors、High-Performance Processors、Networking Processors、 Specialized Processorsで、それぞれ、9つ、9つ、3つ、3つのプレゼンテーションが行われました。2024年の参加者は、現地参加者922名、バーチャル参加者1003名でした*1。3日間の講演は、すべて同じ講演会場が使用されるシングルセッション形式で行われるので、現地参加の場合、すべてのプレゼンテーションを一人で聴くことができます。昼食は講演会場の隣にいくつもの円卓が並べられた会場が用意されて、事務局側の用意した軽食を食べることができ、参加者との交流も活発に行われます。

HOT CHIPS会場 児玉撮影

Keynote:OpenAI

今回の基調講演では、OpenAI社から“Predictable Scaling and Infrastructure”と題した講演がありました*2。OpenAIは、Chat GPTを開発した企業です。Chat GPTには、GPT-3やGPT-4といったトレーニングモデルが使われています。入力するパラメータ数は、GPT-3では、1750億個、GPT-4では、1兆7600億個と言われています。OpenAIは、大きなモデルをトレーニングすることで優れたモデルが生成されることは予期しながらやっていたといい、GPT-4の計算量は予期できていたと言っていました。データ量を多くすればするほど、精度が上がることを、X軸をトレーニングの計算量、Y軸をデータセットの最終的な損失としてグラフ(下記のFigure.1)で示しました*3。GPT-4のプロット点が、予測曲線上に一致していることを示したのです。すごいと思いませんか?まるで、ムーアの法則のようです。そして、この計算をするための設備が大きくなりすぎたと問題提起もしていました。特に、構成しているいくつものハードウエアが故障した際に、その故障の影響が実行している計算のすべてに及ばないように、彼らの言葉を使うと“Cluster level RAS”が重要と言っていました。RASとは、Reliability(信頼性),Availability(可用性),Serviceability(保守性)の頭文字をとっていて、システムの運用管理のキーワードになります。次世代基盤にもクラスターレベル のRASが非常に重要になってくると思いました。

 参照元:GPT-4 Technical Report, https://arxiv.org/pdf/2303.08774

注目した論文発表

今回、NVIDIA社(B200)*4、AMD社(MI300X)*5、Intel社(Gaudi3)*6、SambaNova社(SN40L)*7、Cerebras社(WSE-3)*8、Microsoft社(Maia 100)*9、META社(MTIA)*10、Tenstorrent社(Blackhole)*11、enfabrica社(ACF-S)*12と各社の最新のGPUやアクセラレータの発表がありました。大規模言語モデルで有名なOpenAI社のGPT-3は、1750億のパラメータ数で事前学習されています。大規模言語モデルの学習では、大容量で高速なメモリをどうやって構築するかがハードウエアを開発する上で需要な視点となります。しかし、メモリの容量と速度は、容量が少なくなると高速になり、容量が大きくなると低速になる相反する関係性にあります。主なメモリの種類は、SRAM(Static Random Access Memory)、HBM(High Bandwidth Memory)、DRAM(Dynamic Random Access Memory)ですが、その中でも、比較的高速で容量の多いHBMは、スーパコンピュータ「富岳」にも使われていて大容量で高速なメモリの中心的なデバイスです。上述の10社を私なりにカテゴライズしてみました。

  • HBM3を採用した大容量高速派:NVIDIA, AMD, SambaNova
  • HBM2を採用したコストと性能のバランス派:Intel (Gaudi3), Microsoft
  • DDRを採用した性能よりもコスト重視派:META, Tenstorrent
  • 特殊なアプローチ派:巨大SRAMを巨大基板で実現するCerebras、 DDRも含めてメモリ階層に工夫を持せたSambaNova、インターコネクトを含めたネットワークに工夫を持たせたenfabrica

GPUのメーカとしてトップを独走するNVIDIA社は、最新のHBM3を搭載する所謂正攻法です。一方、IntelやMicrosoftは、高価なHBM3を使わずに、それよりも安価なHBM2を使いコストと性能のバランスを重視しています。特にMicrosoftは、開発した半導体を外販するのではなく、自社のAIで使う目的なので、なおさらコスト重視となることは必然と思われます。一方、半導体の露光限界を超えて製造する工夫により、一つの半導体が基板サイズなみに大きく、それゆえ巨大なSRAMを搭載しているCerebrasはかなり特殊な半導体です。

OpenAIの基調講演では、今後AIのトレーニングモデルはますます大きくなると言っていました。この動向は私も同感です。AIトレーニングモデルの伸びはメモリの大容量化の伸びよりもはるかに大きいので、扱うデータ量とメモリ量の乖離はますます拡がります。このような状況を考えると、クラスターレベルで扱えるように工夫をすることが、難しい挑戦ではありますが、問題を解決するための最善の方策と思っています。そういう意味では、メモリ階層をクラスターレベルで持たせたSambaNovaやクラスターレベル でネットワークに工夫を持たせたenfabricaの半導体は、今後も注視したいと思います。

おわりに

各社の最新半導体の発表が行われたHOT CHIPS2024に参加しました。この学会で初めて研究成果や新しい半導体技術を公表する機会としている企業が多くあるので、HOT CHIPSは来年以降も継続して注目したいと思いました。AIは、これまで治せなかった病気が治せるになったり、リアルタイム翻訳により言語の壁が取り除かれたり、将来的に様々な分野で活用されていくと思われますが、それを支える計算量は飛躍的に大きくなるので、見方を変えれば、このままでは破綻してしまう危機感があります。この状況をどうやって打破していくか?という難しい問題に対して、一生懸命考えなければならないという使命を改めて感じました。

謝辞

本研究は、文部科学省「次世代計算基盤に係る調査研究」事業の助成を受けたものです。

*1: Day2 Closing Remarks.

*2:Day1 Keynote1 OpenAI, “Predictable Scaling and Infrastructure”

*3:GPT-4 Technical Report, https://arxiv.org/pdf/2303.08774

*4:Day1 NVIDIA, “Blackwell Platform: Advancing Generative AI and Accelerated Computing”

*5:Day1 AMD, “InstinctTM MI300X Generative AI Accelerator and Platform Architecture”

*6:Day1 Intel, “Gaudi 3 AI Accelerator: Architected for Gen AI Training and Inference”

*7:Day1 SambaNova, “Breaking the Barrier of Trillion+ Parameter Scale Gen AI Computing.”

*8:Day2 Cerebras, “Wafer-Scale AI: Enabling Unprecedented AI Compute Performance”

*9:Day2 Microsoft, “Inside MAIA 100”

*10:Day2 META, “Next Gen MTIA - Meta’s Recommendation Inference Accelerator”

*11:Day1 Tenstorrent, “The Standalone AI Computer and its Programming Model”

*12:Day2 enfabrica, “An 8-Tbit/s SuperNIC for High-Performance Data Movement in AI & Accelerated Compute Networks”