はじめに
こんにちは。富士通株式会社ICTシステム研究所のMLPerf HPC五人衆です。先週、国際学会SC’21 において、理化学研究所/富士通が共同で開発した新しいスーパーコンピュータ(スパコン)「富岳」がスパコンランキングで4期連続の4冠(TOP500, HPCG, HPL-AI, Graph500)を獲得しましたが、同会議で発表された、実際のディープラーニング(DL)学習処理に特化したMLPerfTM HPC ベンチマークにおいても世界一を獲得しました。 本ブログでは、このMLPerf HPCの一つのアプリケーションであるCosmoFlowの学習を「富岳」で大規模に行い世界一となった、その挑戦についてお話させてもらいます。
- はじめに
- 背景
- MLPerf HPCって何?(白幡)
- CosmoFlowって何?(田渕)
- 「富岳」って何?(田渕)
- プロセッサ
- 通信ネットワーク
- ストレージ
- 準備
- 環境の構築、チューニング(山崎)
- TensorFlow + OneDNN for aarch64
- Mesh TensorFlow
- Weak scaling
- 処理の同期、スケジューリング(田渕)
- ジョブ間同期
- ジョブの配置
- データの準備、ステージング(笠置)
- 「富岳」でのステージング
- 環境の構築、チューニング(山崎)
- 結果(白幡)
- まとめ(田原、白幡、笠置、田渕、山崎)