橡树岭国家实验室(ORNL)将发布一份关于下一代高性能计算(HPC)系统,即计划于2027年交付的OLCF-6的需求建议书(RFP)。
继续阅读
Google AI TPU
橡树岭国家实验室(ORNL)将发布一份关于下一代高性能计算(HPC)系统,即计划于2027年交付的OLCF-6的需求建议书(RFP)。
继续阅读大多数关于AI基础设施的讨论都从计算设备开始,然后结束。这些硬件包括用于训练复杂算法和基于这些模型进行预测的GPU、通用CPU、FPGA和张量处理单元(TPU)。
继续阅读图形处理器(GPU,Graphic Processing Unit)是面向吞吐率设计、片上集成大量并行计算部件的处理器。2006年采用统一架构的GPU和使用高级语言编程的开发平台的出现,引发了GPU通用计算领域的迅猛发展。
继续阅读随着AI不断演进,成为一个具有统计和数学严密性的计算范式,显而易见的是,对于科学设施产生的数据,单一GPU解决方案已不再足以满足训练、验证和测试的需求。
继续阅读西门子EDA在人工智能技术方面进行了大量投资,并将其应用于各种产品领域,包括PCB设计、自动驾驶系统、智能工厂车间管理和智能城市管理。
继续阅读HPC指的是在多台服务器上以高速并行方式执行复杂计算的能力。这些服务器的集合被称为集群,由数百甚至数千台计算服务器通过网络连接而成。
继续阅读应该预先以整体性的方式来解决存储扩展问题。这包括容量、性能、网络硬件和数据传输协议。其中的关键点是确保充足的GPU资源,否则,训练和推理工作可能会失败。
继续阅读随着AI/ML解决方案在企业中崭露头角,我们的许多客户发现传统的存储系统和文件系统可能无法满足与新的AI/ML工作负载相关的新需求。
继续阅读RDMA技术涵盖了四种实现方式:InfiniBand、RoCEv1、RoCEv2以及iWARP。在这其中,RoCEv1已经过时,iWARP并不常见。目前,业界普遍采用的网络解决方案主要集中在InfiniBand和RoCEv2两个选项之间。
继续阅读工程上的聪明才智一直是推动创新的一种方式,而半导体行业无疑处于前沿。
继续阅读