NVIDIA Spectrum-X 网络平台作为超大规模云基础设施中的 AI 量身打造的领先网络平台,NVIDIA 正在迅速获得吸引力。Spectrum-X 网络技术帮助企业客户加速生成式 AI 工作负载。NVIDIA 宣布,该平台在 2023 年 11 月新闻稿 以及由 Spectrum-X 提供支持的 NVIDIA Israel-1 超级计算机的更新。
NVIDIA 现在宣布 Supermicro 已作为 Spectrum-X 平台的 OEM 合作伙伴加入。Spectrum-X 将纳入 Supermicro GPU 超级服务器,提供 4U、5U 和 8U 外形尺寸,并将支持 NVIDIA GPU 在 NVIDIA HGX H100,NVIDIA H100 和 NVIDIA L40S PCIe 外形规格。
这些 Supermicro 系统通过提供出色的网络性能、确保多租户性能隔离和提高能效,显著缩短了基于 Transformer 的大型生成式 AI 模型的训练和推理时间。这些进步是在遵守以太网网络标准并利用 NVIDIA Spectrum-4 以太网交换机和 NVIDIA BlueField-3 SuperNIC。
NVIDIA 期待与 Supermicro 合作,为我们的联合 AI 云和超大规模基础设施客户带来更高的价值。
NVIDIA Spectrum-X 性能基准测试
随着 NVIDIA Israel-1 数据中心的持续开发,我们执行了各种基准测试,这些测试突出了 Spectrum-X 的性能优势。初步结果非常好,详情如下。
基本网络运行状况 (RDMA)
第一个基准测试展示了系统的基本网络运行状况。AI 工作负载围绕使用 GPU 构建,需要 GPU (及其板载显存)与将服务器连接到网络的网卡之间进行高带宽、低延迟的通信。
RDMA 对分是表明网络已为 AI 做好准备的关键指标,Spectrum-X 在此类别中表现出色。与传统以太网相比,它提供的有效带宽提高了 4 倍,延迟降低了 4 倍。传统以太网包括 RDMA 以及拥塞通知和流量控制等优化。
AI 集合性能
除了 RDMA 性能之外,NVIDIA 还基于 NVIDIA 集合通信库(NCCL)测试了 AI 基元的性能。跨多个系统运行的 AI 工作负载利用 NCCL 操作(例如 all-to-all 和 all-reduce)更新单个 GPU 中的模型参数,并确保横向扩展训练和推理的同步。
借助 Spectrum-X,@NCCL 运算相比传统以太网有显著提升。在多个工作负载同时通过网络进行通信的杂 AI 云场景中,它们还展示了一致且可预测的性能。
事实上,Spectrum-X 在无噪点和无噪点场景中均表现出稳定的高性能。相比之下,传统以太网在不同运行场景中的性能差异高达 20%。
大型语言模型性能
虽然 RDMA 对分和 AI 集合操作很重要,但最重要的结果是在应用程序级别。Spectrum-X 是否会加速大型语言模型 (LLM) 训练工作负载?事实上,它确实如此。对于两者 NVIDIA NeMo Spectrum-X 可显著提升性能,缩短分步迭代时间,同时缩短训练时间和获得见解的时间。
网络恢复能力
Spectrum-X 通过网络优化加速 AI,但同样重要的是,要考虑网络的弹性。AI 工作负载紧密合,需要所有节点的高有效带宽才能获得最佳性能。
当网络链路或交换机发生故障时,AI 训练可能会受到严重影响。必须迅速重新路由网络通信,否则很大比例的 GPU 基础设施将闲置,这会耗费时间和资金,并且可能需要从先前的检查点重启作业。
借助 Spectrum-X 路由机制,流量会从中断链路转移,并高效地分配到正常链路,从而将性能降低降至最低。相比之下,传统以太网容易因网络问题而受到严重且不成比例的减速,从而导致 GPU 基础设施效率低下。
总结
正如这些初始基准测试所示,Spectrum-X 代表了使用以太网构建多租户、超大规模 AI 云的突破性方法。此解决方案使组织能够提高 AI 云的性能和能效,同时实现更高的可预见性和一致性。这反过来会加速 TTM 并增强竞争优势。
了解详情
想要了解更多信息?请通过线下或线上方式与我们联系,亲身或以虚拟身份参加 NVIDIA GTC 2024,体验 NVIDIA 网络平台套件。与行业杰出人士、开发者、研究人员和商业战略家联系,帮助塑造 AI 和加速计算的未来发展。AI 大会将发布关于 NVIDIA 网络进展的激动人心的公告、演示和教育会议。
推荐您查看这些内容:网络会议。
- 适用于 AI 的网络最佳实践:来自云服务提供商的观点– 面板【S62447】
- 为 AI 应用打造合适的存储– 面板【S62476】
- 借助 InfiniBand 进入创新前沿【S62293】
- 通过优化的以太网 AI 网络实现企业生成式 AI【S62521】
- 通过卸载到 BlueField DPU 加速 HPC 和 AI 应用:策略和优势【S61956】
- 与专家交流:为 AI 时代选择合适的网络:网络定义数据中心【CWE61202】