AMDの発表で見えてきたFrontierのノード構成 スーパーコンピューターの系譜  (1/3)

 インテルのロードマップアップデートも一段落しており、次は10月末に開催されるIntel Innovation待ちである。実を言えば海外ではぼちぼちLGA 1700対応のマザーボードの話が出てきたりしてはいるのだが、まだ製品発表には遠そうだ。

 それはともかくとして、ここにきてHPC関係の話がいろいろ出てきたので、今回はこれをまとめてご紹介しよう 。

AMDがHPCの性能効率を2025年までに30倍にすると発表

 9月29日、AMDは2025年までにHPCおよびAIワークロードの性能効率を30倍にすると発表した。これは2020年時点のプラットフォームなので第2世代EPYCと比較して、2025年のプラットフォームでは性能/消費電力比を30倍に引き上げるという話である。ちなみに組み合わせられるGPUは、Radeon Instinct MI100なのか、その前世代製品であるRadeon Instinct MI50なのかははっきりしない。

 この30倍、実はAI向けに関して言えばそれほど難しくはない。そもそもEPYCにしてもRadeon InstinctにしてもAI向けという観点で言えばまだ未対応という方が正確であって、BF16へのサポートこそ追加されたもののまだ効率的にAI処理を行なうような仕組みは搭載されていない。

 インテルで言えばVNNIやXe Coreに搭載されたMatrix Engineに相当する仕組みであって、これを搭載すれば現状の10倍くらいの効率を達成するのはそう難しくない。というより、現状が低すぎるというべきだろう。

 これとプロセス微細化や回路の改良などを積み重ねていけば、30倍は(簡単とは言わないが)達成可能だろう。むしろ難しいのはHPC分野であって、それこそインテルのAMXに相当する大規模なMatrix Engineなどのアクセラレーターを考慮する必要がある。

 現状CDNAにはインテルのXeのMatrix Engineや、NVIDIAのTensor Coreにあたるものが実装されていないので、このあたり(おそらくはNVIDIAのTensor Core Gen2に近い、FP64の行列演算が可能なもの)を実装してくる形で対応すると思われる。

 さらに余談であるが、AMDがVNNIをサポートするかどうか、現状ではやや疑わしい。というのはVNNIはAI向けミドルウェアとしてはOpenVINOおよびoneAPIに事実上紐付いてしまっているからで、oneAPIはともかくOpenVINOをAMDがサポートできるか? という話になるからだ。したがって、独自実装の形でAIアクセラレーター命令を搭載し、それをROCm経由で利用できる、という形になりそうな気がする。

AMDが発表した構成がFrontierに酷似そこからFrontierのノード構成を推定

 さて、ここまでの話は単に枕である。その性能効率30倍に関してAMDのSVP兼研究員であるSam Naffziger氏の説明があったのだが、そのNaffziger氏が説明に利用したスライドの1枚が下の画像だ。左の図を拡大したのがその下の画像である。

「業界標準に比べて2.5倍の改善率を達成する」という意気込みもすごい

問題の構図。さてこれをどう見るべきか

 これが何か? というと「単なる一例」とされそうだが、AMDとCray(現HPE)が2022年にオークリッジ国立研究所に納入するスーパーコンピューターFrontierのノードがやはり1×EPYC+4×Radeon Instinct構成になる。

こちらはオークリッジ国立研究所のFrontierのページに掲載されている“NODE Diagram”のもの

 このノードの構成が先の構図に酷似しているあたりは、どう見てもNaffziger氏の画像はFrontierの構成をベースにしていると考えざるを得ない。

 これを前提に、Frontierのノード構成を推定したのが下図になる。まずEPYCはまだGenoaは間に合わないので、実際にはMilanベースになるだろう。というより、最終構成はGenoaベースになるのかもしれないが、2021年の納入時にいきなりGenoaベースはかなり無理がある。

Frontierのノード構成推定図

 図ではDDR5メモリーを接続する形態になっているが、これもMilanベースの当初納入時はDDR4ベースで、あとからGenoaベースに更新される際にDDR5ベースにボードごと切り替わるものと思われる。Frontierの稼働に関するタイムラインは連載510回で説明したが、2021年後半から2022年前半にインストールして、稼働は2022年後半である。

Frontierの導入スケジュール。CYはCalender Yearの略

 ということは、とりあえずはMilanベースでシステムを稼働させ、途中でプロセッサボードを順次Genoaベースに更新していくという方法はアリである。

 その一方でRadeon Instinctは少なくとも現在のMI100とはまったく違うカスタム版になると考えられる。こちらは少なくともI/Fとして以下の構成を取ると思われる。

関連記事