NVIDIA 将率先为 AI 工厂引入光电一体封装优化的以太网网络,通过 NVIDIA Spectrum-X 以太网 Photonics(面向数万亿参数 AI 基础设施的旗舰交换机)在 NVIDIA Rubin 平台上实现横向扩展与高效互联。
本博文探讨了 Spectrum-X 以太网光子技术协议与硬件中的关键优化及创新,这些优化与创新可为超大规模 AI 工厂构建节能高效、可靠且富有弹性的光电联合封装网络。
适用于 AI 的以太网如何在 NVIDIA Rubin 平台上实现可扩展的训练与推理
超低抖动以太网网络在扩展 AI 工厂方面发挥着至关重要的作用,因为它能确保在整个基础设施中实现稳定且可靠的数据传输。通过显著减少抖动,无论批量大小,AI 系统均可维持高效的 token 吞吐量,这对处理各类高要求的工作负载尤为关键。这一能力支持在单个 AI 工厂内实现无缝的多租户运行,使多个用户和应用能够同时操作而不会影响性能。
它还提升了基于多专家模型(MoE)架构的模型调度效率,实现了更快速的专家选择,并增强了整体模型性能,如图 1 所示。因此,AI 工厂能够以更快的速度、更高的可靠性和更强的可扩展性运行。
用于 AI 工厂光互连的 Spectrum-X 以太网光子技术的重要创新
Spectrum-X 以太网光子交换机凭借其集成的硅光引擎,为 AI 工厂带来性能提升。
- 与可插拔互连产品相比,新型封装和低损耗光电通道使每 1.6 Tb/s 端口的功耗降低至五分之一。
- 相较于现成的以太网解决方案,这些光电链路可将支持无翼链路的 AI 系统正常运行时间延长达五倍,确保 AI 工作负载持续稳定运行。
- 网络弹性提升十倍,为任务关键型应用提供卓越的稳定性与可靠性。
借助这些创新,组织能够扩展其 AI 基础设施,提升每瓦性能,支持更大规模的工作负载,同时维持卓越的能效、可靠性和网络稳定性。
Spectrum-X 以太网 Photonics 是全球首个完全集成的 512 通道 200G 重封装交换机系统。可拆式光纤连接器的推出,支持表面正常输入/输出(I/O),提升了 AI 工厂中高性能以太网交换机的组装效率与可扩展性。通过在最后阶段采用精密机械对准实现光纤的全自动连接,制造商能够显著提升产量与吞吐量,简化大规模部署流程。
表面正常的光 I/O 架构使光端口能够在不增加交换机封装物理尺寸的情况下实现扩展。这对于高基数交换机尤为有利,因其需在紧凑空间内支持大量连接,以满足大规模 AI 工作负载的需求。
兼容回流焊接的光学引擎也是一项突破,可与现代测试和组装工具无缝集成。这种兼容性使得在连接到交换机芯片之前,能够对光学组件进行全面筛选,确保仅使用已知性能良好的引擎,从而实现可保证的 100% 良率。该流程得益于拾放自动化和全面的预组装测试,二者共同为这些先进的交换机系统提供了高效的制造路径。
四通道 ASIC 交换机架构中的集成 shuffle 机制是另一项关键创新,可在单个集群内实现 GPU 的扁平化与高效扩展。该拓扑结构避免了传统多层交换带来的延迟问题,能够在集群规模扩大的同时维持优异性能。SN6800 交换机提供 409.6 Tb/s 的总带宽,支持 512 个 800 Gb/s 端口或 2048 个 200 Gb/s 端口,结合其集成光纤 shuffle 与光电共封的硅光技术,构建出空间紧凑且节能高效的以太网解决方案。这些协同创新为 AI 工厂提供了强大且可扩展的网络基础设施,有力支撑新一代人工智能应用的发展。
AI 工厂网络创新的下一步发展方向
这种全面的代码设计方法(涵盖芯片、系统、软件和 AI 模型)有助于构建可扩展的高性能 AI 工厂。Spectrum-X 以太网 Photonics 交换机可为 AI 工厂提供超低抖动的网络,从而提升速度、可靠性和可扩展性,为新一代应用奠定坚实的基础设施基础。有关更多信息,请参阅 NVIDIA 硅光页面。