AI の誇大宣伝によりデータセンターの GPU の価格が高騰する
更新しました多くの HPC および AI システム ビルダーと同様に、私たちも、AMD の「Antares」Instinct MI300A ハイブリッド CPU-GPU システム オン チップが、パフォーマンスと価格の点でどのようなものになるのかを知りたがっています。
そして、ISC 2023スーパーコンピューティングカンファレンスが数週間後に迫っており、ローレンス・リバモア国立研究所の最高技術責任者ブロニス・デ・スピンスキー氏がイベントで主力マシンとなる将来の「エル・キャピタン」エクサスケール・システムについて講演する予定だ。 Antares GPU の MI300A バリアントについては、私たちの頭の中にあります。
そこで、楽しみのために、信頼できる Excel スプレッドシートを取り出して、MI300 GPU と MI300A GPU (後者は El Capitan システムの中心となる可能性があります) のフィードと速度を推定してみました。 はい、AMD が ISC 2023 以降で MI300 シリーズ GPU についてもう少し詳しく話す可能性が高く、最終的にはこのコンピューティング エンジンがどのように設計されているか正確にわかることを考えると、これはおそらく愚かです。 しかし、かなり多くの人が、MI300 シリーズが Nvidia「Hopper」H100 GPU アクセラレータと競合できるかどうか、そしておそらくもっと重要なことに、Hopper にしっかりと固定された 72 コアの「Grace」Arm CPU の組み合わせと競合できるかどうかを尋ね続けています。 H100 GPU は、Grace-Hopper を組み合わせたハイブリッド CPU-GPU 複合体を作成します。これは、El Capitan に配備される予定の MI300A、および HPC および AI ワークロードを実行する他のハイブリッド CPU-GPU マシンと完全に連携します。並んで。
そして、大規模な言語モデルに基づく生成 AI アプリケーションの AI トレーニングの急増によって引き起こされる GPU コンピューティングに対する激しい需要と、GPU を使用した AI トレーニングにもっと関与したいという AMD の願望を考慮すると、その需要は Nvidia を上回ると考えられます。これは、Nvidia AI ソフトウェア スタックが AMD に対して大きな利点を持っているにもかかわらず、後者の GPU が AI 供給である程度の勝利を収めることを意味します。 前世代の「Aldebaran」GPU は、特にオークリッジ国立研究所の「Frontier」エクサスケール システムで、すでに AMD にとっていくつかの印象的な HPC 設計で勝利を収めています。これらのデュアルチップ GPU のうち 4 つをカスタムの「Trento」Epyc CPU に接続して、より疎結合なハイブリッド コンピューティング エンジン。 (他にもあります。) そして、AI ワークロード用の Nvidia GPU に対する激しい需要は、需要が供給を上回っているため、AMD がいくつかの取引を獲得する余地を実際に残すことになると考えています。
現在、人々は、1990 年代後半から 2000 年代初頭のように、Web インフラストラクチャを追加してアプリケーションを最新化し、インターネット上にインターフェイスを展開するためにワークロードに生成 AI を追加することに忍耐強くなることはありません。 今回の違いは、データセンターが汎用の X86 コンピューティング基板に変化しているのではなく、全体として可能な限り最高の利益を提供するために織り込まれた、競合および補完的なアーキテクチャのエコシステムになりつつあることです。さまざまなワークロードに対応します。
MI300 シリーズについてはまだ多くのことはわかっていませんが、1 月に AMD がデバイスについて少し話しました。それについてはここで取り上げました。 私たちはデバイスの 1 つのイメージを持っており、そのうちの 1 つは、Frontier システムで使用されている既存の MI250X GPU アクセラレータと比較して、ワットあたりの AI パフォーマンスが 8 倍、AI パフォーマンスが 5 倍になることがわかっています。 MI300 シリーズの 1 つは、9 つのチップレット全体で 1,460 億個のトランジスタを備えていることがわかっています。 そのトランジスタ数の大部分は、CPU と GPU の計算要素を相互接続する 4 つの 6 ナノメートル タイルに実装されており、その上には Infinity Cache もエッチングされていると考えられます。 このキャッシュがどれだけのトランジスタを使用するかを言うのは難しいですが、それが分かるのを楽しみにしています。
ちなみに、MI300A は、AMD の主力並列計算エンジンの APU バージョン (単一パッケージ上の CPU コアと GPU コアの組み合わせを意味します) であることを示すためにそう呼ばれていると考えられます。 これは、APU ではない、GPU のみの Antares GPU バージョンが存在することを意味します。おそらく、これら 4 つのインターコネクトおよびキャッシュ チップの上に最大 8 つの GPU チップレットが搭載されています。以下に MI300A と思われるものを示します。
今年初めの AMD の表現で正確に言うと、その 8 倍と 5 倍という数字は、MI250X GPU のテストと、MI300A コンプレックスの GPU 部分のモデル化されたパフォーマンスに基づいています。 そして、非常に具体的に言うと、これはAMDが述べたことです:「AMDパフォーマンスラボによる2022年6月4日の測定、AMD Instinct MI300とMI250X FP16でサポートされる構造スパース性を備えた推定提供FP8浮動小数点パフォーマンスの現在の仕様および/または推定に関するもの( 306.4 は、ピーク理論上の浮動小数点パフォーマンスの 80% に基づいて、推定配信 TFLOPS を実現します)。MI300 のパフォーマンスは、予備的な推定と期待に基づいています。最終的なパフォーマンスは異なる場合があります。」
さらに具体的に言うと、これまでに AMD が MI300 シリーズに関して行った 3 つの主張に対するメモは次のとおりです。
MI300-002はどうなったのかと思い、インターネットで探しましたが見つかりませんでした。
上記のデータと脳に詰まった推測エンジンに基づいて、AMD のこれまでの発言を踏まえ、MI300 と MI300A のフィードと速度がどのようになるかを推定した表を、かなりの量の推測を含めて示します。いつものように太字の赤い斜体。
この記事の以前のバージョンでは、AMD が行ったコメントはすべて MI300A に関するものであると想定していましたが、一部は MI300 に関するものでした。 そこで私たちは、これら 2 つのチップ複合体がどのようなものになるかを確認するために最善を尽くしました。 私たちは何の保証もせず、これを思考実験として提供します。
前のグラフではストリーミング プロセッサとコンピューティング ユニットが多すぎましたが、これは正しいと考えています。 ごめんなさい。 最後にスパーシティ行列処理を追加しましたが、その処理の 2X 係数を取り出すのを忘れていました。
MI300 には、合計 440 個のコンピューティング ユニットと 28,160 個のストリーミング プロセッサーに対して 8 つの GPU タイルがあり、FP8 で 3,064 テラオプス ピーク、AI 推論に一般的に使用される INT8 処理で 3,064 テラオプス ピークが得られ、FP8 をサポートする一部のアプリケーションでは AI にも使用されると考えられます。トレーニング。 このチップは、置き換えられる MI250X と同じ 1.7 GHz のクロック速度で動作し、MI250X の 2 倍のベクトル FP64 および FP32 処理能力を持つと考えられます。
MI300A では、GPU チップのうち 2 つが取り外され、コンピューティング ユニットが 330 に、ストリーミング プロセッサが 21,120 に減少します。 しかし、ローレンス・リバモア氏は、同じ高帯域幅メモリ上に CPU と GPU を搭載するためにある程度の熱を犠牲にすることを厭わなかったと考えられるため、AMD はこれら 6 つの GPU のクロック速度を上げて、パフォーマンスをわずかに上回るものになると考えています。 MI300。 私たちの計算によると、2.32 GHz がうまく機能し、AMD が主張しているワット当たりのパフォーマンスの 8 倍と 5 倍のパフォーマンスが得られます。
Nvidia がベクトル ユニットと比較して H100 GPU の行列演算ユニットのパフォーマンスを何倍も向上させたのと同様に、AMD も MI300A ハイブリッド コンピューティング エンジンで同じことを行うと考えられます。 したがって、ベクトルユニットでは 2 倍の改善しか見られない可能性があります。 これは、多くの HPC ワークロードは、行列演算ユニットで実行するように調整されない限り、AI トレーニング ワークロードほど高速化しないことを意味する別の言い方です。
さて、お金の話をしましょう。
2021 年 12 月に遡って分析したところ、MI250X がフロンティア マシンを構築するためにオーク リッジに初めて出荷されていたとき、これらの GPU モーターの 1 つの定価は 14,500 ドルの範囲にあり、定価よりも数千ドル高くなる可能性があると推定されました。 Nvidia「Ampere」A100 SXM4 GPU アクセラレータは、当時 12,000 ドルで販売されていました。 2022 年 3 月の H100 の発表を受けて、トップエンドの H100 SXM5 (HGX システム ボードとは別に購入することはできません) に対して、19,000 ドルから 30,000 ドルの請求が行われる可能性があると推定しました。 H100 GPU の PCI-Express バージョンの価格は、おそらく 15,000 ドルから 24,000 ドル程度です。 当時、需要の高まりにより、A100 SXM4 の価格は約 15,000 ドルまで上昇していました。 そして、ほんの数週間前には、H100 の PCI-Express バージョンが eBay で 1 個あたり 40,000 ドル以上でオークションに出品されていました。 それはクレイジーです。
状況はここ米国の中古車市場よりも悪く、需要が多すぎて供給が少なすぎることから生じる一種のインフレとなっている。 いずれにしても十分なユニットを製造できないことがわかっているベンダーにとっては、この状況が好まれます。 ハイパースケーラーとクラウド ビルダーは、自社の開発者間で GPU へのアクセスを割り当てており、クラウド内の GPU 容量の価格が上昇しても驚かないでしょう。
スパース性をオンにした FP8 パフォーマンスに関しては、MI300A は理論上のピーク パフォーマンス約 3.1 ペタフロップスを提供しますが、これは 128 GB の HBM3 メモリに対して、帯域幅はおそらく約 5.4 TB/秒程度です。 Nvidia H100 SXM5 ユニットには、3 TB/秒の帯域幅を備えた 80 GB の HBM3 メモリが搭載されており、FP8 データ解像度と処理でスパーシティをオンにした場合のピーク パフォーマンスは 4 ペタフロップスと評価されています。 AMD デバイスのピーク パフォーマンスは 25% 低くなりますが、デバイス上の 8 つの HBM3 スタックをすべて完全に実装できる場合、メモリ容量は 60% 増加し、おそらくメモリ帯域幅は 80% 増加します。 (私たちはそう願っています。) 多くの AI ショップは、実際の AI トレーニングのパフォーマンスを促進するために、メモリの帯域幅と容量を増やすためにピーク パフォーマンスを少し犠牲にしても全く問題ないと考えています。
確かに言えることは、El Capitan が MI300A 計算エンジンの第一候補であり、通常の 64 ビット倍精度浮動小数点で 2.1 エクサフロップスのピークを突破するには 28,600 個のソケットが必要であり、この場合、ソケットはノード。
Hewlett Packard Enterprise の Cray 部門は El Capitan マシンを構築しており、ノード上に多くの計算エンジンを搭載することを好みます。 たとえば、Frontier システム ブレードには 1 組のノードがあり、それぞれに 1 台の Trento CPU と 4 台の MI250X GPU が搭載されており、合計 10 台のデバイスと約 5,300 ワットになります。 Slingshot 11 ネットワーク インターフェイス カードの場合、議論のためにブレードあたり 6,000 ワットと考えてください。 850 ワットのブレード上に 8 つの MI300A がある場合、コンピューティング エンジンだけで約 6,800 ワットになります。 まだ「Shasta」Cray EX フレームの冷却仕様の範囲内であると私たちは推測しています。 これは水冷マシンであるため、Slingshot 11 ネットワーク インターフェイス カードを備えたブレードに 8 台の MI300A を搭載できると考えられます。 私たちはそれを知ることを楽しみにしています。
上の Cray EX 分解図に示すように、ブレードあたり 8 台の MI300A デバイスとキャビネットあたり 64 台のブレードがある場合、キャビネットは 56 台になります (切り上げ)。 Cray はこれまで、100 キャビネットの範囲で能力クラスのマシンを販売することを好み、顧客がストレージを含めてある程度の余裕があると感じられるように、200 キャビネットまで拡張できるマシンを用意しました。 El Capitan が 2.3 エクサフロップスのピークで入ってくると、62 キャビネットになり、2.5 エクサフロップスでは 67 キャビネットになります。 ストレージを含めると、El Capitan のキャビネットは約 100 個になると強く思われます。
現在の「Sierra」システムは、El Capitan の市場投入が計画より約 1 年遅れているため (ただし、おそらく 6 億ドルの予算の範囲内である)、現在 5 年が経過しようとしています。ノード数は 4,320 で、それぞれのノードに IBM の Power9 プロセッサが 2 基と、IBM の Power9 プロセッサが 4 基搭載されています。 Nvidia の「Volta」V100 GPU アクセラレータ。 これは、Sierra の合計 17,280 GPU に相当します。MI300A の FP64 パフォーマンスに関する私たちの推測が正しければ、これが単なる勘であることは私たちが最初に認めますが、El Capitan の GPU ソケットは、El Capitan の GPU ソケットよりも 65 パーセント多いだけです。シエラ。 ただし、各 El Capitan ソケットには 6 つの論理 GPU があるため、2.1 エクサフロップスを実現するには 171,600 GPU に相当します。 これは、2 つのシステム全体で 4.8 倍の価格上昇で 16.9 倍の生の FP64 パフォーマンスが向上し、GPU 同時実行性が 9.9 倍増加することによって実現されます。 El Capitan は、Sierra よりも少なくとも 10 倍以上の力強いパフォーマンスを、40 メガワット未満の熱エンベロープで実現する必要があります。 これらすべてが正しければ、2.1 エクサフロップスの El Capitan は、計算エンジンだけで約 24.3 メガワットになります。
この全体の価格を確認してみると、El Capitan マシンのコストの 85% が CPU-GPU 計算エンジンで、そのエンジンが 28,600 基ある場合、1 基あたり約 17,800 ドルになります。 そして、ハイパースケーラーやクラウド構築業者が、AMD の HPC 上層部への進出を基本的に後援している米国の国立研究所が支払っている金額よりも安くなるはずはありません。 (それは多くの「もしも」であり、私たちはそれをよく知っています。)
以前は、実際には、HPC 国立研究所の大幅割引を逆算して、スーパーコンピューティング取引から GPU の定価を算出していました。 たとえば、Sierra で使用されている Volta V100 アクセラレータの場合、GPU は定価で約 7,500 ドルで販売されましたが、Lawrence Livermore と Oak Ridge には 1 個あたり約 4,000 ドルで販売されました。 したがって、MI300A の定価は、以前の割引レベルが普及していれば、33,500 ドルを超える可能性があります。 AMD が MI300A エンジンにさらに多くのコンピューティングを追加し、ユニットあたりの価格も大幅に下がったため、割引率はそれほど急ではないと考えています。AMD が Nvidia に取って代わるには積極的である必要があるため、定価は実売価格に近いものでした。
2019年8月に当初のEl Capitan契約が2022年末納入、2023年末までに受理されると発表されたとき、それは1.5エクサフロップスの持続的なパフォーマンスと、システムを実行するだけで約30メガワットの消費電力を持つマシンとして指定されたことを思い出してください。
以上のことから、3 つの疑問が残ります。 1: AMD は MI300A デバイスを何台製造できるでしょうか? エル・キャピタンに投入される予定よりもはるかに多い場合は、価格を設定してすべて売却する可能性がある。 そして2つ目は、AMDはそれらを強気の価格で販売するのか、それとも市場が耐えられる価格を押し上げるのかということだ。
2 番目の質問に答えるのは難しくありませんね。 AI が不況の影響を完全に受けることのないこの強気の GPU 市場では、そうではありません。 AIが人間に取って代わることにますます成功すれば、実際にAIが不況を加速させる可能性すらある。 。 。 。 今のところ、本格的な不況もAIの加速による不況も起こっていない。
3 番目の質問は、MI300 の価格は基本的に MI300A と同じですか? その可能性は非常に高いです。
今週のハイライト、分析、ストーリーを、何も挟むことなく直接あなたの受信箱にお送りします。今すぐ購読してください。
更新しました