インテルはハイブリッドCPUを軽視
Intelが2022年2月に、単一ソケット内でCPUとGPUの容量を独立してスケーリングできるハイブリッドCPU-GPU計算エンジンを構築する「Falcon Shores」プロジェクトを発表したとき、チップメーカーはライバルのNvidiaに対抗する準備をしているように見えたそして AMD は、Intel が XPU と呼ぶハイブリッド コンピューティング モーター、AMD が APU と呼ぶハイブリッド コンピューティング モーターに真っ向から取り組んでいます。自社の「スーパーチップ」が何なのか、何がそうでないのかについて厳密に言うと、Nvidia には実際にはありません。
当時指摘したように、CPU と GPU チップレットの変更可能な組み合わせを、文字通り同じメイン メモリとチップレット間の非常に低い遅延リンクを備えた Xeon SP ソケットに組み込むこの「ソケット内の Aurora」アプローチにより、より複雑な処理が可能になります。 Xeon SP の AMX 行列演算ユニットよりも AI 推論が処理できるほか、AVX-512 ベクトル ユニットで可能であるよりも多くの HPC 浮動小数点処理を処理でき、お客様はより高いレイテンシーの Max シリーズ ラインのディスクリート GPU に頼ることなく、または実際にNvidia または AMD のディスクリート GPU。
インテルでアクセラレーテッド・コンピューティング・システムおよびグラフィックス事業のゼネラル・マネージャーを務めていたラジャ・コドゥリ氏(今年3月にコドゥリ氏がインテルを退社したことを受けてこの事業は廃止された)が発表したとき、インテルはファルコン・ショアが5倍以上優れたパフォーマンスを提供すると約束していたワットあたりのパフォーマンス、X86 ソケットでの 5 倍以上の計算密度、および「超帯域幅共有メモリ」と呼ばれる 5 倍以上のメモリ帯域幅と容量を実現します。 これらの数値は「Ice Lake」Xeon SP サーバー ソケットと比較されており、どちらもその時点で上位の部分であったと推測されます。
Falcon Shores は 2024 年に予定されており、将来の「Granite Rapids」 Xeon SP で使用されるのと同じ「Mountain Stream」サーバー プラットフォームに直接接続されることが広く予想されていました。 そして、Intel は、プログラミングを簡素化するために、GPU を巨大で太い AVX-512 ベクトル演算ユニットのように見せるエミュレーション層を与えるなど、何かクレイジーなことができるのではないかと私たちは推測しました。 (もう少し考えてみると、AMX ユニットの可能性が高くなります。)
今年の 3 月までに Koduri が Intel を離れると、同社は Xeon SP ソケット内で 5 つの異なる CPU-GPU チップレット ミックスのようなものを提供することを再開しただけでなく、Xeon SP ソケットへの「リアルト ブリッジ」キッカーも廃止しました。 「Ponte Vecchio」Max シリーズ GPU は、アルゴンヌ国立研究所の「Aurora」スーパーコンピューターの 2 エクサフロップスのピーク処理のほとんどを実行します。 当時、最初の Falcon Shores デバイスが 2025 年に登場し、GPU チップレットのみが搭載され、基本的にこのデバイスはリアルト橋の代わりにポンテ ヴェッキオのディスクリート GPU に代わるものになるという噂がありました。 Intel がロードマップで 2 年間の GPU ペースに移行したいと考えていたため、Rialto Bridge がフラッシュされました。Nvidia と AMD がそれを行っているため、当然のことです。
最近ハンブルクで開催された ISC23 スーパーコンピューティング カンファレンスで、Intel は Falcon Shores に関する自社の意図を明確にし、このデバイスが GPU 専用の計算エンジンになるだけでなく、ハイブリッド XPU の時期はまだ適切ではないことも確認しました。
「CPU と GPU を XPU に統合するという私のこれまでの推進と強調は時期尚早でした」とスーパー コンピューティング グループのゼネラル マネージャーである Jeff McVeigh 氏は ISC23 イベントのブリーフィングで説明しました。 そして率直に言って、マクベイ氏はおそらく、実際にはコドゥリ氏が下した決断であり、おそらくジム・ケラー氏も加わって下した決断の責任を負っているだろう。ジム・ケラー氏は2年以上前に退社し、AI新興企業テンストレント社の最高経営責任者(CEO)となり、現在は最高技術責任者に就任している。
「その理由は、」とマクベイ氏は説明の中で続けた、「私たちは、生成 AI の大規模言語モデルを中心としたすべての革新により、ほんの 1 年前に考えていたよりもはるかにダイナミックな市場にいると感じています。商業分野では、科学的研究にも広く採用されていることがわかります。そして、ワークロードが急速に変化するダイナミックな市場にいるときは、固定 CPU の道を無理に進むことは望ましくありません。 X86 と Arm の間で使用されるベンダーやアーキテクチャさえも修正したくありません - 柔軟性を可能にし、それら全体で優れたソフトウェア サポートを可能にする最適なベンダーはどれですか -成熟した市場です。ワークロードが固定されており、ワークロードが劇的に変化することはないということが本当に明確になっているとき、統合は素晴らしいものです。私たちは何度も統合を行ってきました。それはコストの削減に役立ち、コストの削減にもつながります。これら 2 つのコンポーネントのサプライヤーとその構成方法は決まっています。 そして、今日の市場の状況を踏まえると、統合する時期ではないと私たちは感じています。」
Nvidia がかなりの数の「Grace」 CPU と「Hopper」 GPU スーパーチップを販売する予定であり、AMD には少なくとも 1 つの大口顧客 (ローレンス リバモア国立研究所) が同社の「Antares」 Instinct MI300A ハイブリッド CPU-GPU コンピューティングを大量に購入していることを考えると、エンジンに関しては、Nvidia と AMD がこの評価に完全に同意しないと確信しています。
おそらく、このような XPU の統合は、1990 年代後半から 2000 年代初頭の Itanium の大失敗以来注力する必要がなかったように、コストを削減し、中核となるサーバー CPU 市場での収益を上げることに集中しなければならない Intel にとって適切ではないのかもしれません。 もっと正確に言えば、Intel CPU コアや Intel GPU コアには当てはまらないかもしれません。 おそらく、Intel CPU コアと Nvidia GPU コアの方が市場に受け入れられるでしょうか? これまで、Nvidia はサーバー CPU ビジネスを持っていませんでした。そのため、おそらくその潜在的な提携の時期は過ぎ、「Sapphire Rapids」に NVLink ポートが追加され、巨大な HBM3 コンプレックスが見られるかもしれません。
いずれにせよ、Intel が Xeon サーバー チップの X86 コアの外側に補助計算機能を備えた「フランケンチップ」設計を検討したのはこれが初めてではありません。 そして、こうした取り組みを撤回するのは今回が初めてではない。
Intel は、2014 年 6 月にハイブリッド CPU-FPGA デバイスが開発中であることを明らかにし、2016 年 3 月の Open Compute Summit でハイブリッド 15 コア Broadwell-Arria 10 GX プロトタイプを披露していました。 -FPGA 製品が正式に発売され、CPU 側は 20 コア Skylake チップレットにアップグレードされ、Arria 10 GX がパッケージの FPGA 側になりました。 もちろん、Intel は長年にわたり、単一のダイ上に CPU と GPU を搭載した Intel Xeon E3 プロセッサを販売してきましたが、その統合 GPU に固有の潜在的な (安価なだけでなく、実質的に無料の) 浮動小数点演算機能についてはほとんど語られていません。 (ここで行ったように、私たちはこのことを頻繁に人々に思い出させます。) Intel は何年も前にハイブリッド CPU-FPGA 設計について話すのをやめ、そのローエンド CPU-GPU の可能性についても決して話しませんでした。当初、Falcon Shores は、Granite Rapids Xeon SP と並行して 2024 年に予定されていました。
現在、Falcon Shores マルチチップ GPU は、Granite Rapids への「Clearwater Forest」Xeon SP キッカーと組み合わせて、2025 年に予定されています。
フランケンチップスといえば、McVeigh 氏は ISC23 の説明会でのロードマップのプレゼンテーションで非常に興味深いことを述べました。 まず、ロードマップ:
インテルは、2022 年 5 月以来、2019 年 12 月に 20 億ドルで買収した Habana Labs から生まれた Gaudi2 行列演算エンジンを出荷しています。そして、Gaudi3 の後継機については、ほとんど何もわかっておらず、今年 3 月に廃止されました。 2024年初めに登場するようです。
その後、Falcon Shores マルチチップ GPU が 2025 年にロードマップに登場する時点で、Gaudi と Ponte Vecchio および Falcon Shores GPU を隔てる境界線はなくなります。 大量の混合精度行列演算を備えた NNP と大量の混合精度行列演算を備えた GPU がある場合、同等の力を持つ可能性がある Falcon Shores を信頼できるのであれば、Gaudi4 は必要ないかもしれません。 特に、2023 年に 30 億ドルのコストを削減し、2024 年から 2025 年にかけてさらに 50 億ドルから 70 億ドルのコストを削減するという目標を達成するために、インテルのように大幅なコスト削減が必要な場合にはなおさらです。
McVeigh 氏は、Falcon Shores は HPC と AI の両方のワークロードを対象としており、HBM3 メモリにアップグレードされ、「標準のイーサネット スイッチングを含む当社の Gaudi 製品の最高のものを統合」し、「規模に合わせて設計された I/O」になると述べました。
その I/O は、CPU を Falcon Shores GPU にリンクする CXL over PCI-Express になるように見えますが、これを正しく読むと、GPU をメッシュ化するために Habana Labs によって作成されたイーサネット ファブリックの拡張バージョンが使用されます。 (なぜすべてが PCI-Express 6.0 スイッチングにならないのか当惑していますが、やはり、PCI-Express ケーブルの長さと PCI-Express のポート数が比較的少ないため、それは少数のラックに限定されます。 )
Gaudi1 チップは、RoCE を実行するこのイーサネット ファブリックと相互リンクされた 128 台のデバイスまで拡張できます。 各 Gaudi1 には 10 個の 100 Gb/秒イーサネット ポートがあり、1 つのノードに 4 台または 8 台のデバイスを配置し、32 ノードまたは 16 ノードに拡張して、完全に相互接続された 128 ノードに達することができました。 Gaudi2 デバイスは、100 Gb/秒で動作する 24 個の統合イーサネット ポートまで拡張でき、8 台のデバイスが全対全のノンブロッキング トポロジで相互に接続されます。
8 方向の Gaudi2 システムを作成するには、各デバイスの 24 ポートのうち 21 ポートを使用して、マトリックス エンジン間の全対全リンクを作成します。 各デバイスの 3 つのポートは、Gaudi2 シャーシからの合計 6 つの QSFP-DD ポートに交互に集約され、16 または 32 の Gaudi エンクロージャにまたがる相互接続を提供します。これは、前述したように、通常のイーサネット スイッチで行われます。 。
この Gaudi イーサネット ファブリックが、Falcon Shores GPU からの 400 Gb/秒、あるいは場合によっては 800 Gb/秒のポートにアップグレードされ、同様に高速なイーサネット スイッチを使用してさらに多くのデバイスをリンクすることは想像に難くありません。 さらに残念なのは、Intel が Barefoot Networks 買収による Tofino 回線を休止したため、イーサネット スイッチング ビジネスをもう行っていないことです。 お客様は、Broadcom、Nvidia、Marvell、または Cisco Systems のシリコンに基づいたイーサネット スイッチングを選択する必要があります。
また、Intel は Gaudi デバイスからシストリック アレイ (行列演算エンジンと呼ぶもの) を取得し、Ponte Vecchio の設計で使用されている Xe 行列演算エンジンの代わりに使用する予定のようです。 ですから、Gaudi 4 が別個の製品であるとは期待しないでください。
Nervana Systems と Habana Labs の買収による 23 億 5,000 万ドルの NNP 実験はこれで終わりです。 将来の NNP は Intel の GPU です。 そして、Gaudi2 と Gaudi3 を購入する唯一の企業は、行列演算機能を切望しており、Intel の将来の Falcon Shores GPU にも熱心に取り組んでいる企業です。
今週のハイライト、分析、ストーリーを、何も挟むことなく直接あなたの受信箱にお送りします。今すぐ購読してください。