NVIDIA 转向 RISC-V

RISC-V:处理器设计的革命性转变

NVIDIA是高性能计算 (HPC)和人工智能 (AI)领域的领导者,始终站在技术发展的前沿。从图形处理到深度学习,NVIDIA 不断突破界限,塑造计算的未来。现在,该公司将注意力转向RISC-V,这是一种开源指令集架构 (ISA),有望为半导体行业带来变革性变化。在本文中,我们将探讨NVIDIA 集成 RISC-V 内核的战略举措、其对 AI 格局的影响以及对更广泛的HPC 生态系统的意义。

RISC-V是一种开放式 ISA,允许公司开发处理器,而无需支付与ARM或x86等专有架构相关的昂贵许可费。它的灵活性、可定制性和开放性吸引了硬件供应商的极大兴趣,包括西部数据、阿里巴巴,现在还有 NVIDIA。通过使用 RISC-V,NVIDIA 可以控制专用处理器组件,减少对专有 ISA 的依赖,并使他们能够针对特定工作负载定制架构。

为什么选择 RISC-V

  • 定制灵活性:与提供固定 IP 核的ARM 或 x86 不同,RISC-V 具有高度可定制性。公司可以添加或删除扩展,定制处理器以满足特定需求,而无需获得许可或支付许可费。这对于 NVIDIA 来说尤其有价值,因为它对其 GPU 控制器和 AI 组件具有独特的性能和能效要求。
  • 开放生态系统: RISC-V 的开源特性使其具有很强的协作和创新吸引力。以专有软件和硬件解决方案而闻名的 NVIDIA 现在也可以利用充满活力的 RISC-V 社区进行创新,为不断发展的生态系统做出贡献,从而帮助制定 AI 加速的行业标准。

NVIDIA 对 RISC-V 核心的使用

GPU 的控制逻辑。NVIDIA已宣布计划将RISC-V 内核纳入其未来 GPU 的控制逻辑中。决定将 RISC-V 用于这些元素(例如电源管理、系统监控和热控制)是具有战略意义的。这些内核管理非关键功能,这些功能易于定制,不受任何特定专有架构的约束。例如:电源和热管理,通过使用 RISC-V 核心,NVIDIA 可以引入定制指令来管理 GPU 电源状态、优化每瓦性能并确保高效的热节流。可以添加自定义指令以根据工作负载动态调整功率传输和时钟速度,这有助于保持 GPU 凉爽和高效。

对未来 GPU 设计的影。在未来的 GPU 设计中,RISC-V 核心将在提供对 GPU 的更精细控制方面发挥关键作用,尤其是在数据中心。随着 GPU 集群的数量和密度不断增长,有效管理功率和热行为变得越来越重要。通过使用可编程 RISC-V 核心实现这些功能,NVIDIA 可以适应具有不同功率要求的新兴 AI 工作负载,从而提高整体集群效率。

真实示例:在发布的Hopper GPU架构中,NVIDIA 采用了 RISC-V 核心来优化GPU 的控制平面。对于高吞吐量和低延迟至关重要的 AI 任务,RISC-V 核心有助于动态微调GPU 参数,从而在不影响性能的情况下提高效率。这种灵活性使 NVIDIA 在AI 训练和推理工作负载方面具有显著优势,在这些工作负载中,精确管理电源传输对于实现最佳性能至关重要。

RISC-V 与 AI 的融合:行业视角

AI加速器定制。NVIDIA 对 RISC-V 感兴趣的主要驱动因素之一是定制 AI 加速器的机会。RISC-V 的开放 ISA 允许 NVIDIA 等公司设计专门针对机器学习工作负载的内核。这为直接在控制逻辑中添加专门的张量运算、自定义神经网络层甚至优化的矩阵乘法功能提供了可能性,从而将这些运算从主 GPU 计算内核中卸载。

与提供类似效率优势但有许可限制的ARM相比, RISC-V为 NVIDIA 提供了更大的创新自由。与采用一刀切方法的专有内核不同,RISC-V 允许 NVIDIA尝试各种设计并快速迭代,而不受许可费用或合同义务的束缚。

虽然ARM 内核仍被用作NVIDIA Grace和其他服务器芯片的主要 CPU 组件,但 RISC-V 为 NVIDIA 提供了一种更灵活、更经济高效的方式来设计对 GPU 操作至关重要的辅助控制单元。

当今的数据中心严重依赖异构计算——利用 CPU、GPU 和其他加速器来实现不同工作负载的最佳性能。RISC -V与 NVIDIA GPU 的集成预示着未来,各种处理器(CPU、GPU 和加速器)的控制单元将通过开放且可修改的通用 ISA进行管理。通过使用RISC-V作为不同计算组件的控制单元,数据中心可以简化固件开发、降低成本并加速创新。这有助于开发专用固件,以便更好地管理不同计算节点之间的电源分配、热输出和延迟,从而实现更高效、响应更快的系统。

对人工智能发展的影响。NVIDIA采用RISC-V还可以加速AI 框架的开发。通过定制的 RISC-V 内核管理 GPU 状态,在训练期间微调 AI 模型有了新的机会。例如,GPU 集群可以根据神经网络的深度或特定层的操作自适应地调整功率水平,从而提高深度学习模型训练阶段的效率。

尽管RISC-V具有诸多优势,但采用它仍面临挑战。开发定制内核并管理其与复杂 GPU 的集成并非易事,需要在硬件和软件开发方面进行大量投资。然而,凭借其在 HPC 领域的丰富资源和市场领导地位,NVIDIA 完全有能力克服这些障碍,并成为RISC-V 驱动控制架构的先驱。