计算快速链接(CXL)互连技术的出现早于近期人工智能(AI)热潮,但正是AI可能加速其在数据中心的采用。
CXL于2019年推出,至今已有三个版本,这意味着想要利用它的人们仿佛在面对一波功能洪流。CXL已被行业广泛接受,它是一种用于处理器、内存扩展和加速器的缓存一致性互连技术,能够实现资源共享——特别是内存。
与更成熟的非易失性存储器快速(NVMe)协议类似,CXL以PCI Express(PCIe)为基础,配备灵活的处理器端口,可以自动协商使用标准PCIe事务协议或替代的CXL事务协议。
CXL有三个子协议:CXL.io,用于执行I/O指令;CXL.cache;以及CXL.memory。在CXL 1.0中,内存可以直接连接,而2.0增加了将内存连接到一组处理器的能力,允许使用存储级内存或持久性内存,或者具有不同性能和成本结构的内存层级。
CXL 3.0通过增加高级交换和结构能力、高效的点对点通信以及跨多个计算域的细粒度资源共享,进一步提升了分解能力。最近发布的3.2版本为CXL内存设备的监控和管理提供了额外优化,并通过可信安全协议(TSP)扩展了安全性,包括扩展的IDE保护。
CXL之所以能从1.0迅速跃升至3.2,其中一个原因是该互连技术从一开始就设想了许多功能,但规范的制定者选择逐步增加功能,明白设备制造商和系统构建者需要时间来有效采用该协议。
Objective Analysis的首席分析师Jim Handy表示,CXL规范的逐步构建反映了一个现实:很难让所有利益相关者立即达成一致。“他们采取了小步前进的方式。”
他说,CXL的最终目标始终是拥有多层交换机,但CXL 1.0没有任何交换机,CXL 2.0只有一层。直到3.0,这一愿景才成为现实,而这正是许多人等待的时刻。Handy说:“CXL的一大应用是内存池化,而没有至少一个交换机就无法实现内存池化,所以至少需要CXL 2.0才能做到这一点。”
CXL缺少软件支持
Handy表示,由于依赖PCIe,从硬件角度实现CXL并不复杂,因为已有支持它的处理器,英特尔和AMD等大厂也在提供这些处理器。CXL起飞所需的缺失部分是软件。“目前还没有真正支持它的软件,因此在最初几年,这将是超大规模数据中心的一个重要应用,”他说。
Handy补充说,广泛采用可能需要长达五年的时间,当前的兴趣主要集中在CXL的内存池化功能,因为它可以帮助访问未充分利用的“闲置”内存。“内存池化的核心理念是数据中心可以用更少的内存应对需求。”
Handy表示,难题在于这种能力是否会对内存销售构成威胁,或者是否会促使人们购买更大的内存。还有一个问题是它如何融入内存/存储层次结构,可能更容易在一层使用更多慢速廉价内存,而不是在另一层使用昂贵的高速内存。
Handy说,CXL确实会增加延迟,这会减慢像DRAM这样的内存速度,因为需要在内存和处理器之间加入一个CXL控制器,这也增加了成本。
他表示,从长远来看,软件将解决部分延迟问题,就像软件解决了SSD的性能问题,使其不再受限于硬盘范式一样。
扩展标准可能令人望而生畏
尽管CXL是一个开放标准,但由于其规范范围极广,实现互操作性可能具有挑战性。Synopsys解决方案集团高级员工经理Gary Ruggles在接受《Fierce Electronics》采访时表示,CXL涵盖了内存池化和共享、对称一致性以及多级交换等功能。
Synopsys为CXL 3.x及之前的版本提供了控制器、PHY、安全模块和验证IP,旨在支持所有CXL设备,包括加速器、内存扩展器和基于其现有PCIe IP的智能I/O产品。由于Synopsys提供的IP特性,它始终必须走在技术前沿,进行测试和验证以确保互操作性。
Synopsys与Teledyne LeCroy合作,在SC24上展示了据称是全球首款CXL 3.1多厂商互操作性演示,展示了一台Teledyne LeCroy Summit M616协议模拟器如何模拟CXL主机连接到Synopsys的CXL物理层设备(PHY)和控制器,并在无需转接器的情况下通过CXL 3.1进行通信。
Ruggles表示,管理CXL互连协议的CXL联盟正在遵循PCIe的路径,举办合规性研讨会,但尚未完成3.0,而管理PCIe的小组尚未完成6.0。
他说,CXL 2.0专注于增加交换能力,而CXL 3.0支持结构,这意味着连接到结构上设备的每块内存都可以共享。“理论上,你可以接近100%的内存利用率,而不是每个设备都拥有自己的内存。”
Synopsys解决方案集团产品经理Ron Lowman补充说,利用联网的额外资源支持分布式计算的概念,而CXL实现了内存共享功能。
从采用角度看,存储供应商一直在开发基于PCIe 5.0的解决方案,这与CXL 2.0一致,但Synopsys的客户选择了CXL 3.0,已启用分布式计算能力,Lowman说。
他说,CXL提供了连接网络以利用更多内存、获得更多带宽和更多资源的能力——不仅是内存,还有附近节点的计算资源。
Lowman补充说,AI工作负载正在推动CXL的采用。“AI工作负载的独特之处在于它们总是受内存限制。你会遇到瓶颈,因为单一整体SoC的内存耗尽了。”
AI将在2025年推动CXL采用
CXL最初的兴奋在某种程度上被AI的兴起所掩盖。Astera Labs首席商务官Thad Omura在接受《Fierce Electronics》采访时表示,行业对此表现出极大的兴趣,CXL将在2025年开始真正加速。“你将看到大客户部署这项技术,”他说。“目前在资格认证和准备大规模生产及部署技术方面仍在持续进行大量活动。”
作为一家控制器公司,Omura表示,Astera认为CXL的性能提升与所选控制器密切相关,因为它影响整个平台对CXL内存的可靠性、可用性和可服务性。“Astera的重点是确保我们添加到系统中的CXL连接内存的可靠性,”他说。
Omura表示,控制器技术将极大影响新的CXL配置,包括可以添加多少内存密度,并生成最佳的总拥有成本。Astera的Leo CXL智能内存控制器支持内存扩展、共享和池化。
Omura说,最初的应用将涉及内存扩展,CXL开始对AI工作负载(如深度学习推荐模型的推理)产生积极影响。“你将开始看到AI与CXL的更多活动,要么在今年晚些时候,要么在明年开始显现。”