解耦合和可组合性对于AI/DL模型的规模化至关重要

新一代应用程序和工作负载,如AI/DL和HPC,正在打破传统存储基础设施模型和框架的界限。我们无法继续通过扩展存储基础设施的规模(scale-up)或增加节点数的方式(scale-out)来满足这些不断波动且汹涌而来的I/O需求。是时候考虑另一种存储架构类型的基础设施技术 —— 可组合基础设施架构。

基础设施正在发生变化。计算、网络和存储等传统守旧的基础设施架构早已被抛弃,这始于20年前x86服务器虚拟化技术的兴起。它引发了一场虚拟化的海啸,包括存储虚拟化,最终找到了一个更为流行的术语 —— 软件定义存储。存储虚拟化和软件定义存储(SDS)是相似但不同的,应该在不同的背景和相似的目标下进行区分。

随着虚拟化的持续发展,融合基础设施(CI)演变为超融合基础设施(HCI),一度引发了热潮。像Maxta、Pivot3、Atlantis等公司几乎已经消失,而HPE Simplivity和Cisco Hyperflex偶尔会出现在我的雷达上。在一个发展非常快速的市场上,HCI现在由Nutanix和VMware主导,Microsoft、Dell EMC等厂商紧随其后。

从HCI开始,虚拟化的关注点转向了更加细粒度、更具扩展性的容器化。尽管存在一定的复杂性,容器化将敏捷性和可扩展性提升到了一个新水平。Kubernetes、Docker现在已经成为基础设施工程师和DevOps团队的常用术语。那么是什么推动了可组合基础设施的发展?我们是否已经达到了虚拟化的尽头?实际上并非如此。

Composable Infrastructure Architecture

只是基础设施领域的一部分正在发生变化。这一新一代的AI/ML工作负载正在将硬币翻到虚拟化的另一面。正如上面的图表所示,IDC引领我们转变思维,进入到可组合性的阶段,这是基础设施的下一个阶段。

什么是可组合基础设施?

要思考可组合性,我们首先必须考虑解耦合。几年前在SNIA的网络研讨会上发布了一张图片,对我来说印象深刻,完美地解释了解耦合。

如果虚拟化或容器化是将不同的功能部件(计算、网络、存储等)组合在一起,以构建应用程序和工作负载(A&W)的平台,那么可组合性则是朝着另一个方向发展。在可组合性中,功能部件(计算、网络、存储等)被动态地组合和编排,以满足A&W的需求。当A&W的需求和生命周期发生变化时,这些功能部件会被动态地减少,甚至被拆解,并以不同的比例和权重重新组合,以满足新的工作负载需求。这就是可组合性的美妙之处,也是可组合基础设施的奇迹和力量所在。

要严格一些,我查阅了许多关于可组合基础设施的定义。我最喜欢的是这一条:可组合基础设施将计算、存储和网络布局集成到一个平台上,类似于融合或超融合基础设施。它还整合了软件定义的智能和统一的API,以“组合”这些灵活的资源池。

Compute eXpress Link (CXL)

解耦合的核心是CXL。CXL被广泛认为是低层次、高性能、超低延迟互连的标准,它有着光明而令人兴奋的未来。CXL的最早版本涉及到可组合内存部件,高带宽内存资源可以即时组合和分配,以为CPU处理器提供服务,特别是对于核数较高的处理器,以持续保持CPU的高利用率。我在网上观看的有关CXL内存组合能力的最佳视频之一是两周前由Liqid发布的视频。下面是该视频的链接(https://youtu.be/CEMNKp-WPu0)。

当然,CXL还将引入更多的“功能部件”。在接下来的几年里,我们将看到GPU、DPUs、xPUs等采用PCIe生态系统来推出CXL Fabrics。SNIA也有一段很棒的视频,介绍了CXL Fabrics的3.0版本,这是该视频的链接(https://youtu.be/Lt3kjReLXds)。

可组合性:适用于AI/DL

AI黄金时代正在如火如荼地进行中。随着ChatGPT 3.0于2022年11月的推出,全新的“西部荒野”已经来临。生成式AI成为大家谈论的热门话题,开始训练和构建下一个大事件的疯狂竞赛。大型语言模型(LLMs)成为生成式AI的变革性框架,为了达到这一目标,支持这些平台的基础设施和框架必须极其动态、灵活和敏捷,以满足AI/DL的不断变化的工作负载。

传统的基础设施架构无法满足不断变动的网络和存储访问模式,以及AI/DL工作负载的交付需求。因此,对于这类AI/DL应用程序和工作负载来说,可组合基础设施架构是非常适合的。例如,在AI/DL应用程序的开发、生产和生命周期中,一些部分最好从CPU中卸载,并在最优时间给予适当数量的功能资源,同时平台以最有效的方式平衡其解耦合的资源。也许在AI/DL应用程序的训练阶段,需要增加更多的存储资源,以满足指数级的写入I/O和消息传递以及对学习模型的更新,以发展其准确性和纠正。但在平台上的AI/DL应用程序的生产阶段,对写入资源和网络的需求较少,现在已经转移到对读取资源的需求,并涉及大量的用户查询AI应用程序以获取准确答案和预测行为。可组合性能够在运行时无缝实现所有这些操作,无需停止应用程序从一个状态转移到另一个状态,并重新应用新的交互学习细节来增强AI平台上的应用程序。

总结

目前还处于早期阶段。对于可组合基础设施架构的理解仅限于一些供应商和热衷于技术的专家。随着AI/DL工作负载推动突破传统基础设施平台的限制,我们将达到一个点,即处理海量的PB级和EB级数据的应用程序将需要解耦合和可组合性。这些应用程序需要满足全球用户对近乎即时答案的需求。