英特尔正式推出Gaudi 3,最强CPU同步亮相

英特尔今天正式推出了用于 AI 工作负载的 Gaudi 3 加速器。新处理器的速度比 Nvidia 广受欢迎的 H100 和 H200 GPU(用于 AI 和 HPC)要慢,因此英特尔将其 Gaudi 3 的成功押注于其较低的价格和较低的总拥有成本 (TCO)。

英特尔的 Gaudi 3 处理器使用两个芯片组,包含 64 个张量处理器核心(TPC,带有 FP32 累加器的 256×256 MAC 结构)、八个矩阵乘法引擎(MME,256 位宽矢量处理器)和 96MB 片上 SRAM 缓存,带宽为 19.2 TB/s。此外,Gaudi 3 集成了 24 个 200 GbE 网络接口和 14 个媒体引擎,后者能够处理 H.265、H.264、JPEG 和 VP9,以支持视觉处理。该处理器配备 8 个内存堆栈中的 128GB HBM2E 内存,可提供 3.67 TB/s 的巨大带宽。

与拥有 24 个 TPC、两个 MME 和 96GB HBM2E 内存的Gaudi 2相比 ,英特尔的 Gaudi 3 有了巨大的改进。不过,英特尔似乎简化了 TPC 和 MME,因为 Gaudi 3 处理器仅支持 FP8 矩阵运算以及 BFloat16 矩阵和矢量运算(即不再支持 FP32、TF32 和 FP16)。

在性能方面,英特尔表示,Gaudi 3 可以提供高达 1856 BF16/FP8 矩阵 TFLOPS 以及高达 28.7 BF16 矢量 TFLOPS,TDP 约为 600W。与 Nvidia 的 H100 相比,至少在纸面上,Gaudi 3 的 BF16 矩阵性能略低(1,856 vs 1,979 TFLOPS),FP8 矩阵性能低两倍(1,856 vs 3,958 TFLOPS),BF16 矢量性能明显较低(28.7 vs 1,979 TFLOPS)。

比原始规格更重要的是 Gaudi 3 的实际性能。它需要与 AMD 的 Instinct MI300 系列以及 Nvidia 的 H100 和 B100/B200 处理器竞争。这还有待观察,因为它在很大程度上取决于软件和其他因素。目前,英特尔展示了一些幻灯片,声称 Gaudi 3 与 Nvidia 的 H100 相比具有显着的性价比优势。

今年早些时候,英特尔表示基于八个 Gaudi 3 处理器的加速器套件 售价为 125,000 美元,这意味着每个处理器售价约为 15,625 美元。相比之下,Nvidia H100 卡目前的售价为 30,678 美元,因此英特尔确实计划在价格上比其竞争对手更具优势。然而,由于基于 Blackwell 的 B100/B200 GPU 可能提供巨大的性能优势,这家蓝色公司是否能够保持相对于竞争对手的优势还有待观察。

英特尔执行副总裁兼数据中心和人工智能事业部总经理 Justin Hotard 表示:“对人工智能的需求正在推动数据中心发生巨大转变,业界要求在硬件、软件和开发工具方面做出选择。随着我们推出配备 P 核的 Xeon 6 和 Gaudi 3 AI 加速器,英特尔正在建立一个开放的生态系统,使我们的客户能够以更高的性能、效率和安全性实施所有工作负载。”

英特尔的 Gaudi 3 AI 加速器将通过 IBM Cloud 和英特尔 Tiber 开发者云提供。此外,基于英特尔 Xeon 6 和 Gaudi 3 的系统将于第四季度从戴尔、HPE 和超微全面上市,戴尔和超微的系统将于 10 月出货,超微的设备将于 12 月出货。

向数据中心推出“Granite Rapids” Xeon 6

英特尔谈论其“Granite Rapids” Xeon 6 处理器已经很长时间了,人们很容易忘记它们尚未正式发布。

但今天,“Granite Rapids”服务器 CPU 系列的高端产品首次亮相,而这比 AMD 普遍预计发布其“Turin”第五代 Epyc 处理器早了几个星期。虽然我们认为 AMD 将继续扩大市场份额,但 Granite Rapids 加上今年 6 月发布的“Sierra Forest”Xeon 6 芯片的组合,即使不能扭转趋势,也将帮助英特尔减缓数据中心 CPU 市场份额的损失。

老实说,考虑到 AMD 与台湾半导体制造公司合作而仍然在芯片制造工艺上保持领先地位,以及英特尔自身在代工业务方面遇到的困境,这是最好的结果了。

正如我们多次指出的那样,有设计胜利和供应胜利,虽然前几代 Xeon 显然只是供应胜利,但可以公平地说,Sierra Forest 和 Granite Rapids 都开始获得一些设计胜利,即使英特尔的销售仍然主要归功于供应胜利。

Xeon 6 芯片的 E 核和 P 核变体的芯片封装和架构(在英特尔术语中是“效率”和“性能”的缩写)早在 Hot Chips 2023 上就已披露。我们今年夏天对 Sierra Forest 的深入研究,英特尔为服务器 CPU 刀战带来了大分叉,填补了 Xeon 6 技术和战略中的许多空白。因此,我们不会大惊小怪,我们将在明年年初直接进入 Granite Rapids 阵容和未来 Xeon 6 芯片的路线图。

当然,在这篇最初的报道之后,我们将对 Granite Rapids 进行架构深入研究。我们将回顾英特尔所做的竞争分析,将 Granite Rapids 与2022 年 11 月推出的当前第四代“Genoa”Epyc 9004 芯片、2023 年 6 月推出的“Bergamo”Epyc 97X4 芯片(其核心数量与 Sierra Forest 一样增加)以及即将推出的“Turin”Epycs 进行对比。

Granite Rapids 处理器基于“Redwood Cove”P 核心,是 Sapphire Rapids 和 Emerald Rapids 中使用的“Golden Cove”核心的更新版。与 Golden Cove 核心相比,Redwood Cove 核心在整数工作负载上每时钟指令数 (IPC) 增加了 5% 到 7%,虽然只是名义上的增加,但仍然是增加。我们取中间值 6% 的 IPC 来与前几代 Xeon 进行比较。我们被警告不要过分关注这个常用指标。(顺便说一句,我们并不认为我们会关注这个指标,但它确实有用。)

“我最近确实做了一个小演讲,说人们过于关注 IPC,”英特尔高级研究员兼 Xeon 6 产品线首席架构师 Ronak Singhal 告诉The Next Platform。“具体来说,如果我的内部团队来找我,为我提供一个 IPC 为 5% 的核心和一个 IPC 为 15% 的核心,哪个对 Xeon 更有利?答案是这取决于其他参数,特别是功率。如果 5% IPC 选项使我多花费 0% 的功率,但 15% IPC 选项使我多花费 30% 的功率,那么在功率受限的世界中,这两个选项平均而言大致相同,而且其中一个可能不那么复杂。所以,虽然每个人都喜欢讨论 IPC,但我们真正需要谈论的是功率受限下的性能。我之所以这么说,是因为 Granite Rapids 的核心在很多方面更注重降低功率,而不是提高 IPC。”

很合理,而且很有道理。从这个角度来看。如果你使用两个 Emerald Rapids CPU(即四个芯片),并将它们保持在英特尔 7(实际上是 10 纳米)上,那么你将创建一个 112 核计算综合体,其重量将超过 700 瓦,并且插槽尺寸将是原来的两倍。如果你使用相同的两个 Emerald Rapids CPU(同样是四个芯片),并将它们缩小到英特尔 3(有人说类似于 5 纳米工艺,其他人说更像 3 纳米工艺),你可以在大致相同的功率下将性能提高一倍,这仅仅是由于工艺缩小,但它可能再次接近 700 瓦,这是原始芯片的 2 倍。

然而,对于 Granite Rapids,英特尔将核心数量从之前两款 P 核处理器的 56 个核心提升至 120 个,增加了 2.3 倍,而顶部部分的功率仅增加至 500 瓦,仅增加了 1.4 倍。

当然,情况要复杂一些,因为 Granite Rapids 和 Sierra Forrest 在封装中的多个芯片上混合使用了英特尔 3 和英特尔 7 工艺。在 Sapphire Rapids 和 Emerald Rapids 中,英特尔将 I/O 和内存控制器与计算核心放在同一个芯片上。但在 Sierra Forest 和 Granite Rapids 中,I/O 和内存芯片与计算核心分离,并在不同的工艺中实现,如下所示:

Xeon 6 系列中有四种不同的 P 核计算芯片和 I/O 芯片组合,其中一种——顶级超核心数 (UCC) 变体——于今天推出。

Granite Rapids Xeon 6 变体具有较少的计算块数量(两个用于极端核心数 (XCC) 变体或一个用于高核心数 (HCC) 变体),以及一个具有较小计算块以及两个 I/O 芯片的变体,称为低核心数 (LCC),将于 2025 年的某个时候问世。

核心芯片封装如下:

今天发布的 Granite Rapids UCC 套件被称为 Xeon 6 6900P,它包括最高运行速度为 6.4 GHz 的 DDR5 内存和可将其推高至 8.8 GHz 的多路复用列 (MRDIMM) 内存。得益于两个 I/O 芯片,插槽可以跨 UCC、XCC、HCC 和 LCC 进行配置,并且允许任何这些芯片直接插入任何“Birch Stream”平台,该平台还支持 Sierra Forest 及其后续产品“Clearwater Forest”,该产品将于明年某个时候采用英特尔 18A(1.8 纳米)工艺推出。

Granite Rapids 套件支持最多 96 条 PCI-Express 5.0 通道,还可运行 CXL 2.0 一致性内存协议。该套件还具有高达 504 MB 的 L3 缓存,与英特尔通常的缓存相比,这非常大。

据我们所知,今天发布的 Granite Rapids 芯片没有支持四路和八路服务器的变体,这很遗憾。Sierra Forest Xeon 6 也是如此(考虑到它的用例,我们预计会支持),2023 年 12 月推出的上一代第五代“Emerald Rapids”Xeon SP v5 芯片也是如此,后者是一条更广泛的 Xeon SP 产品线,并且可能具有扩展的 NUMA 集群。您必须从 2023 年 1 月开始使用“Sapphire Rapids”Xeon SP v4 芯片才能获得英特尔支持四路和八路 NUMA 的 CPU。

顺便说一句,由于有六个 UltraPath Interconnect NUMA 链接以 24 GT/秒的速度运行,因此英特尔及其 OEM 和 ODM 合作伙伴没有技术原因不能使用这些 Granite Rapids 芯片制造具有两个以上插槽的 NUMA 机器。这肯定是足够的动力和足够的链接。

英特尔尚未透露 Granite Rapids 计算模块的内核数量,但根据您认为英特尔的英特尔 3 工艺产量,您可以合理地猜测 48 个内核或 45 个内核。对于具有 128 个内核的 UCC 变体,您必须在这些芯片上产生奇数才能使其发挥作用。(我们讨厌不均匀分布的情况,甚至更糟的是,不除以 2。)每个计算芯片都有四个 DDR5 内存控制器,总共十二个,就像当今大多数高端 CPU 一样,使用 MRDIMM 内存,Granite Rapids 上的有效带宽比 Emerald Rapids 上的有效带宽高 2.3 倍。

下面是一张很好的摘要图表,显示了 Xeon 6 P 核和 E 核变体之间的差异:

尽管 Xeon 6 处理器的 P 核和 E 核版本使用相同的 I/O 芯片,但显然并非所有功能都在 E 核版本中激活。您会注意到,对于单插槽设计,P 核 6700 系列芯片不知何故提供了 136 个 PCI-Express 5.0 通道。E 核芯片上的虚拟内存寻址要低得多,这是有道理的,因为它们只会在具有一个或两个插槽的机器中使用,而不是多达八个或更多插槽。E 核具有不同的矢量数学单元,只有 P 核具有 AMX 矩阵单元。图表显示即将推出支持四个和八个插槽的 P 核 Xeon 6 芯片。

这让我们看到了 Granite Rapids 的 SKU 堆栈,它相当适中,只有 5 种不同的变体。看一看:

辛加尔在发布会前的简报中表示,谷歌和亚马逊网络服务公司正在为其产品系列获取定制的 Xeon 6 处理器,我们想象其他公司也是如此。

为了便于比较,下面是 Sierra Forest Xeon 6 SKU 的表格,同样只有 7 种不同型号:

以下是去年 Emerald Rapids SKU 的详细表格:

与往常一样,我们的相对性能数据是根据任何特定型号的 Xeon 与 2009 年的“Nehalem”Xeon E5540 处理器的性能来计算的,后者拥有四个内核,运行速度为 2.53 GHz,8 MB L3 缓存,散热能力为 80 瓦。为了计算相对性能,我们将每个型号的内核数量乘以时钟速度,再乘以每一代 IPC 的累计增量。

考虑到我们为此目的而精心跟踪的累积 IPC,Redwood Cove 核心的整数性能比 15 年前的 Nehalem 核心高出 2.42 倍。这是相当不错的架构增强。与 Nehalem 相比,Granite Rapids 的核心数量增加了 32 倍,但所有这些核心的时钟速度都下降了 21%,而功耗却增加了 6.25 倍。

这就是芯片业务。

您会注意到上面的 Granite Rapids 表中还有一件重要的事情:价格以粗体红色斜体显示。这意味着英特尔没有公布 Granite Rapids Xeon 6 芯片的价格。我们显然不赞成这种做法。价格表提供了一个上限,人们可以在此基础上进行谈判,如果数量足够,他们肯定会这样做。

大自然厌恶真空,我们的孩子也是如此,因此我们根据以往的 Xeon SP 定价,尽最大努力估算了 Granite Rapids 芯片的价格。我们认为这些是英特尔在 Xeon 系列中推出的最昂贵的数据中心 CPU。(Itanium 不算,它不一样。)如果您知道价格是多少,请分享,我们也会分享。