当系统架构师坐下来设计他们的下一个平台时,他们首先会查看 CPU、加速器、内存、闪存、网络接口卡以及 PCI-Express 控制器和交换机供应商提供的一系列路线图。在混合计算和内存类型的系统设计以及共享加速器和内存等组件的集群中,交换机变得越来越重要。
问题在于:路线图并没有真正协调一致。大多数 CPU 和 GPU 制造商都试图每两年进行一次重大的计算引擎升级,并在重大发布之间的一年中进行架构和流程调整,以便他们每年都有新的东西可以销售。以太网和 InfiniBand 市场中的网络交换机和接口卡芯片制造商也往往以两年为周期,并且在英特尔至强 CPU 占据主导地位时,他们过去常常将自己的产品发布与英特尔至强 CPU 的发布节奏紧密联系在一起。但这种节奏已经被英特尔不断重新绘制的路线图、AMD 作为 CPU 供应商的重新崛起以及其他一些 Arm CPU 制造商(包括至少三个超大规模制造商和云构建商)所打破。
然后是 PCI-Express 总线,它在过去二十年里已经无处不在。虽然近年来 PCI-Express 规范以更可预测的方式发布,但 PCI-Express 控制器一直忠实于 PCI-Express 路线图,但 PCI-Express 交换机在 MicroChip 和 Broadcom 的产品发布方面远远落后。
我们认为所有这些路线图都需要更好地协调一致。具体来说,我们认为控制 PCI-Express 规范并通过与 IT 行业广泛而深入的合作来实现这一目标的 PCI-SIG 组织需要加快步伐,采用两年的节奏,而不是平均的节奏在过去的二十年里,它已经展示了三项。虽然我们正在考虑这个问题,但我们认为短节奏地跳跃到 PCI-Express 7.0 会更好地为行业服务,需要尽快推出 PCI-Express 7.0,以使 I/O 带宽和通道数更好地与高吞吐量计算引擎,我们预计将越来越多地使用 PCI-Express 总线来处理基于 CXL 的分层和共享主内存。
我们调整了 PCI-SIG 的带宽图表,该图表并未显示 PCI-Express 6.0 规范是在 2022 年发布的,而是在 2021 年发布的,这是不正确的。
别误会我们的意思。我们很感激 PCI-SIG 组织,这是数据中心和现在边缘的各类公司之间的合作,自很晚的 PCI-Express 4.0 规范发布以来,已经能够使 PCI-Express 总线处于可预测的路线图上。2017 年交付。一些严峻的信号和材料挑战使数据中心在 PCI-Express 3.0 上停滞了七年,我们认为当时主导 CPU 的英特尔在提升 I/O 方面有点拖沓,因为它被“Sandy Bridge”Xeon E5s 使用的芯片组中的 SATA 端口烧毁,该芯片组于 2012 年 3 月发布,比预期晚。从那时起,关于将 PCI-Express 4.0 和 PCI-Express 5.0 控制器集成到处理器中的困难的传言就很多了。
一般来说,PCI-Express 规范发布后,大约一年左右的时间我们就会看到控制器嵌入到计算引擎和网络接口芯片中。因此,当 PCI-Express 4.0 在 2017 年问世时,我们看到第一批使用它的系统在 2018 年问世,具体来说,是IBM 基于 Power9 的 Power Systems 机器,随后在 2019 年 8 月推出的 AMD“Rome”Epyc 7002 中使用了它。英特尔直到2021 年 4 月的“Ice Lake”一代才将 PCI-Express 4.0 控制器纳入其 Xeon SP 处理器中。
即使在 2019 年短暂两年后就达到了 PCI-Express 5.0 规范,但直到2021 年 IBM 在其高端 Power E1080 机器中推出了 Power10 处理器,它才在产品中可用。AMD 直到2022 年 11 月推出“Genoa”Epyc 9004才将 PCI-Express 5.0 集成到服务器芯片中,英特尔直到 2023 年 1 月推出“Sapphire Rapids”Xeon SP 才将 PCI-Express 5.0 集成到服务器芯片中。
因此,正如 CPU 上的控制器所表达的那样,PCI-Express 4.0 和 5.0产品之间实际上是三年的节奏,即使规范只迈出了两年的一步。
我们认为规格和产品需要以更短的两年周期进行,以便计算引擎和互连可以全部排列在一起。其中还包括 PCI-Express 交换机 ASIC,传统上这些 ASIC 远远落后于广泛使用的 3.0、4.0 和 5.0 代 PCI-Express 规格。
在任何一代中,PCI-Express 端口和 PCI-Express 交换机之间的滞后都是一个问题。这种延迟迫使系统架构师在可组合性(理想情况下在 Pod 级别使用 PCI-Express 交换机)或带宽(通过直接服务器插槽提供)之间进行选择。系统和集群的设计需要兼具可组合性和带宽——我们也会在组合中添加高基数。
目前,只有两家 PCI-Express 交换机制造商:Broadcom(通过多年前收购 PLX Technologies)和 MicroChip。早在 2021 年 2 月,我们就对 PCI-Express 5.0 级别的 MicroChip Switchtec ASIC 进行了分析,其通道从 28 扩展到 100 个,端口从 16 扩展到 52 个,但据我们所知,它们尚未批量发货。Broadcom早在 2022 年 2 月就推出了 PCI-Express 5.0 芯片组合,其中包括 ExpressFabric PEX 89100 交换机,该交换机拥有 24 至 144 个通道和 24 至 72 个端口。截至发稿时,我们正在确认这些产品是否正在发货,但尚未收到博通的回复。
我们的观点是,PCI-Express交换机必须同时可用,计算服务器、内存服务器和存储服务器都将使用支持任何给定级别 PCI-Express 的芯片来创建。事实上,在第一天。您必须能够在服务器中嵌入交换机,并且不会丢失带宽或端口或牺牲基数来获得带宽。因此,我们需要大量供应商,以防其中一个供应商出现失误。这就是我们最近试图鼓励 Rambus 进入 PCI-Express 交换机 ASIC 市场的原因之一。
正如 PCI-SIG 推出 PCI-Express 7.0 规范的 0.3 版本一样,所有这些都是首要考虑因素。
让我们看一下一年前 PCI-Express 6.0 规范完成、PCI-Express 7.0 即将出现时我们对 PCI-Express 路线图所做的预测:
PCI-Express 7.0 规范预计要到 2025 年才会获得批准,这意味着我们要到 2026 年末或 2027 年初才能看到它出现在系统中。我们认为这个等待时间太长了。我们需要 PCI-Express 7.0 来提供带宽加速器,以处理运行模拟或训练 AI 模型所需的大量数据。我们需要它与完全复杂的 CXL 4.0 共享内存和池化内存规范相匹配。
我们知道,加速 PCI-Express 7.0 控制器和交换机的上市是很困难的,所有类型的产品也都必须加速。计算引擎和外围设备制造商都会犹豫是否要从 PCI-Express 6.0 产品周期中挤出尽可能多的投资。
尽管如此,随着 PCI-Express 6.0 投入产品并经过严格的测试(由于它使用了新的 PAM-4 信号和 FLIT 低延迟编码,因此需要进行严格的测试),我们认为该行业应该开始加速并尽可能与 CPU 和 GPU 路线图相匹配,并按照两年的节奏进行。