生命科学HPC基础设施趋势

数年来,Chris Dagdigian 一直威胁要交接接力棒,但在2023年生物信息技术世界大会暨博览会上的“Trends from the Trenches”分会议中,他缺席了。然而,五月份由于个人原因不在场时,他的BioTeam同事们继续进行了报告,就他们在咨询业务中看到的趋势和主题提供了概述,内容坦率而富有见地,尽管在这个分会议上,通常以其强大的力量和速度而闻名。

BioTeam的首席执行官Ari Berman开启了这次讨论,重点回顾了一些近期的基础设施趋势。虽然基础设施曾一度被视为相对稳定,但在2023年成为一个关键问题,本地计算的复杂性不断增加,他观察到这是由于疫情以及研究人员在被隔离在家时将注意力集中在更传统的数据生成工作上,导致数据分析的积压。

他说:“每个人都在家里隔离,实验室也关闭了,研究人员开始想着,‘哎,我可以用分析所有这些数据的方式打发时间!’”

由此产生的数据流量影响了云环境和本地高性能计算环境。再加上供应链问题导致硬件价格上涨和交付速度减慢,“本地的IT几乎无法维护这种现在过度紧张的基础设施,”他说。与此同时,云服务商推出了一项运动,开启了他所谓的第二次大规模云迁移。

计算与本地互联

Berman表示,后疫情时代最大的变化之一是公司对硬件的大规模投资。他报道称,生命科学组织对GPU(图形处理单元)的需求急剧增加。他指出,有大量BioTeam的客户正在认真考虑投资价值700万到4000万美元的NVIDIA SuperPOD,这一数字令人“震惊”。

然而,他警告并非所有计算任务都适合于GPU。“这是AI的一种狭隘视野问题,”他说。

他表示,只有15%至25%的生命科学代码适合在GPU上加速。他建议大多数机构性能需要是通用的,而英特尔已经不再是唯一的选择。近来,AMD和ARM都在推动优秀的CPU生态系统。

虽然互联技术一直相对直观,但Berman指出,NVIDIA收购Mellanox和英特尔将Omni-Path(与Cornelis Networks合作)分拆出去是值得关注的。

可组合架构(Composable Architecture)也格外吸引人,Berman说:“这些真的很有趣,因为你可以重新思考如何构建HPC。你不必让每个节点都超级通用。”

永恒难题:存储和网络

Berman表示,存储“永远是因为各种原因存在问题”。成本始终是一个限制因素,大多数组织选择在性能和成本之间寻求平衡。无论是云存储还是本地存储,达到PB甚至更高级别的成本都非常高。Berman认为Hammerspace在数据管理领域发挥着重要作用。

他说,IBM的Spectrum Scale(以前称为GPFS)仍然是最常见的生命科学本地高性能集群文件系统软件。来自DDN的Lustre正在改进,但仍不能很好地处理小文件,尽管这是DDN改进路线图上的目标。他补充说,来自VAST、Weka、Pure和其它公司的下一代存储架构值得关注,客户们对它们普遍满意。

有关将计算移动到数据的讨论一直很热门,但Berman对这种极端观点表示怀疑。“我不在乎谁说过‘让我们将计算带到数据那里。’你仍然至少要移动[数据]一次,可能还要移动更多次。让我们记住这一点,”他警告说。

他补充说,减少数据移动并不是一个坏的目标,但实验室设备只能存储最近的几次实验数据,现在数据共享已成为标准要求,备份和分析可能会在其它地方进行。考虑到一些实验室每年产生的数据超过PB,网络需求变得非常重要。

然而,企业网络并未为科学或大规模数据传输而设计,Berman表示。网络安全的目标是减轻风险,而不是促进科学;网络优化的重点是Web和电子邮件流量,而不是大规模、持续的数据传输;此外,专业知识被分割和隔离。他指出,FedEx仍然是最常用的高速数据传输方式。

Berman表示,很长一段时间以来,最好的替代方案是科学DMZ或边缘网络。这个想法是由能源部发展出来的,用于在国家实验室之间建立以科学为先的网络:这是一种快速、低延迟的解决方案,其安全策略内置在非传统防火墙设备中,这些设备并不是为优化许多小数据流而设计的。科学DMZ位于主要的企业网络之外,因此它可以灵活高效,尽管使用场景相对较窄。“只要IT明白其用途,并且不决定对其进行更严格的限制和封锁——我们已经见过这种情况——这是一个非常不错的选择,”Berman调侃道。

零信任(Zero-trust)和微隔离(Microsegmentation)是网络和安全领域的最新“热门词汇”。虽然科学DMZ可以被视为在平衡安全和数据传输需求方面的临时解决方案,Berman表示零信任方法是“重新设计企业网络的可行途径”。这种方法改变了整个网络的构建方式,使其以任务为基础,而不是以风险为基础。这种方法依靠设置网络,不信任非标准设备——笔记本电脑、测序仪、显微镜、物联网传感器等,但仍允许数据传输的路径。零信任方法识别数据源和类型,几乎可以看作是“应用感知路由”,并在需要时通过网络创建快速路径。Berman承认这很难,但人们开始尝试,他觉得这是有前途的。

他补充说,未来可能会出现新的网络技术:1Tb网络已经开始推出,600-800Gb光传输网络也已经出现。他鼓励从事科学研究的人们关注高速网络。

第二次大规模云迁移

Berman指出,云服务营销商利用所有这些挑战,推动了Berman所称的第二次大规模云迁移,使资源匮乏且突然分散的组织相信云是解决计算问题的方案。自疫情爆发以来,许多组织都启动了激进的云迁移计划,计划实现“云为先”或“全云”过渡,放弃本地架构——其中一些本地架构实际上运行得相当不错。尽管Berman认为云是解决某些问题的好方法,但他反对绝对的“全或无”的方式。

Berman说,第一次云迁移是2008年至2014年,他承认BioTeam帮助许多客户迁移到AWS并关闭了数据中心。那时和现在吸引人的地方是,云计算提供了廉价、易于管理和无限的计算能力,只需要较少的人手。但现实是,云不能替代所有本地基础设施,它需要专门的IT技能,不能满足每个科学家的需求,并且在某些情况下,成本可能惊人地高(比本地数据中心高出10-50倍)。

Berman指出,自从第一次迁移以来,云计算已经显著成熟。现在有更多的云服务提供商,竞争推动了巨大的创新。有些优势是本地无法复制的。容器化和工作负载的可移植性使数据共享更加容易。虚拟编排和无服务器技术使高级用户可以构建非常复杂的环境。深度学习应用和专用硬件非常有吸引力,而在当今的数据量下,本地存储面临挑战。真正的高性能计算可以在云中完成,并且可以进行安全操作,尽管Berman指出:“它是你自己搞砸的机会”。

BioTeam的基础设施和云架构总监Adam Kraut补充说,基于云的高性能计算比以往任何时候都更为重要。他指出,生成和模拟训练机器学习模型所需的大量数据需要高性能计算,在云中可以发挥巨大价值。

但将云作为存储解决方案可能很复杂,定价困难,容易过度使用。此外,Berman补充说,一旦将数据存储在云中,再次取出数据也是需要付费的。科学家可以直接使用云吗?“绝对不行——100%不行。”Berman强调说。即使是高级用户,在开始使用云之前也需要构建他们的云环境。虽然情况正在变得更好,而且有一些相对容易的新服务——他提到了Amazon Omics和DNAnexus——但“事实是,这只是许多你需要串在一起的服务。”

采用混合方法

为了平衡优势和挑战,BioTeam现在主张采用混合计算模型,保留本地数据所有权,同时利用云的能力。

然而,Berman对全云业务战略的反对不仅仅是建立在简单的优劣势对比图上。他认为,云业务模型与长期科学研究目标之间存在根本不匹配。云服务提供商是私营的、盈利的公司,并不是公用事业。他们的服务可以随时发生变化——而且经常发生变化。而科学研究则需要至少五到十年的时间,有些甚至包含数百年的数据。如果公司不再提供你所需的服务,要将一项研究价值的数据迁移需要多长时间?现在的云公司甚至不披露如果关闭了服务,你需要多长时间来取回你的数据。“这应该让你担心!”Berman警告道。

有一个需要注意的问题:当我们说“混合云”时,人们会听到“云爆发”(cloud bursting)—或者当本地资源已满时,迅速将溢出任务发送到云端,Kraut澄清道。但Berman和Kraut都指出,爆发并不是“解决的问题”。网络并不是为快速传输大型数据集到云端以进行爆发式工作而设计的。存储I/O永远无法完美运作,并且有一些不容易启动的软件依赖。

Kraut恳求大家将云视为一种能力增强工具,而不是仅仅解决容量问题。