前些天,英伟达发布了号称最强AIGC芯片:GH200 Grace Hopper超级芯片,相比H100而言,GH200究竟强在哪?
先说结论:GH200与H100属于同一代产品,单纯从AI算力而言(无论是FP16还是FP8算力)两者指标其实都是一样的,GH200主要强在超大内存。NVIDIA官方表示,GH200与H100相比,内存容量高出3.5倍。
GH200包含了1个Grace CPU芯片和1个Hopper GPU芯片,CPU和GPU之间通过900GB/s的NVlink-C2C相连,GH200的GPU可以共享CPU的内存。而基于H100芯片的系统架构设计中,GPU和CPU通过PCIe协议连接。就算最新的第五代PCIe,最高速度也就128GB/s(16个通道,每个通道的速度8GB/s),大约相当于NVlink-C2C的七分之一。
如上图所示,每个GH200芯片集成了不超过512G的CPU内存(一般为480GB或512G),以及不超过96GB的GPU内存(HBM3内存)。Hopper GPU通过NvlinkC2C连接Grace CPU,从而可以直接访问Grace CPU的480G或512GB内存。而单颗芯片H100的HBM3内存最多为80GB,且无法与X86 CPU内存高效互联。
因此,基于GH200芯片的DGX GH200集群(SuperPod),所有256个GPUs连接可以访问到累计144TB的内存,即可(480G+96G)*256/1024=144TB。
DGX GH200的使用场景是:存在GPU内存容量瓶颈的AI和HPC应用。