NVIDIA 将率先为 AI 工厂引入采用光电一体封装 (CPO) 的优化以太网网络,通过 NVIDIA Spectrum-X 以太网硅光技术,为 NVIDIA Rubin 平台实现横向扩展 (scale-out)和跨区域扩展 (scale-across) ,成为万亿参数 AI 基础设施的旗舰交换机。
本文探讨了 Spectrum-X 以太网硅光技术在协议和硬件方面的关键优化和创新,这些优化和创新为十亿瓦级 (Gigascale) AI 工厂实现节能、高效、可靠且弹性的 CPO 网络。
专门面向 AI 的以太网如何在 NVIDIA Rubin 平台上实现可扩展的训练和推理
超低抖动以太网网络在扩展 AI 工厂方面发挥着至关重要的作用,因为它可确保在整个基础设施中进行一致且可靠的数据传输。通过最大限度地减少抖动,无论批量大小,AI 系统始终可以实现高效的 token 吞吐量,这对于处理各种要求苛刻的工作负载至关重要。同时支持在单个 AI 工厂内无缝实现多租户,使多个用户和应用能够同时运行,而不会降低性能。
它还提高了基于混合专家模型 (MoE) 架构的调度效率,实现更快的专家选择并提高整体模型性能,如图 1 所示。因此,AI 工厂能够以更快的速度、更高的可靠性和可扩展性运行。

图 1. 与通用以太网相比,NVIDIA Spectrum-X 以太网提供更低通信抖动和更高的 NVIDIA 集合通信库 (NCCL) 性能
Spectrum-X 以太网硅光技术为 AI 工厂光互连实现技术创新
Spectrum-X 以太网硅光交换机通过光电一体封装 (CPO) 的硅光引擎进一步提高 AI 工厂的性能。
- 与可插拔互连方案相比,新封装和低损耗光电通道将 1.6 Tb/s 端口功耗降低到五分之一。
- 与通用以太网方案相比,CPO 方案光电链路可将链路无闪断的 AI 正常运行时间延长 5 倍,赋能 AI 工作负载无中断运行。
- 网络可靠性提高 10 倍,为任务关键型应用提供出色的鲁棒性。
借助这些创新,企业组织可以扩展其 AI 基础设施并提高每瓦性能,支持更大的工作负载,同时保持更佳能效、可靠性和网络稳定性。

图 2. Spectrum-X 以太网硅光芯片 MCM 封装
Spectrum-X 以太网 Photonics 是全球首款完全集成 512 个 200G 通道的光电一体封装硅光交换机系统。其采用的表面法线 I/O (surface-normal input/output) 可拆式光纤连接器技术先进,提高了 AI 工厂高性能以太网交换机的组装和可扩展性。通过在最后阶段使用精密机械操作的全自动光纤连接流程,制造商可以更大限度地提高产量和吞吐量,简化大规模部署。
表面法线 I/O 架构能够在不增加交换机封装物理尺寸的情况下扩展光端口。这对于高基数交换机尤其有利,因为交换机需要在紧凑的空间内进行大量连接,以支持庞大的 AI 工作负载。
兼容回流焊接 (solder-reflow) 光引擎也是一项突破,可与现代测试和组装工具无缝集成。这种兼容性可在贴到交换芯片之前对光学组件进行全面筛查,确保仅使用已知良好的引擎,从而实现 100% 良率保障。该流程受益于拾放 (pick-and-place) 自动化和全面的预组装测试,共同为这些先进的交换机系统提供了高效的制造途径。
在四芯片交换机架构中集成 shuffle 机制是另一项关键创新,可在单个集群内实现 GPU 的扁平化和高效扩展。这种拓扑消除了传统方案中额外交换层引起的延迟,随着集群的增长保持极佳性能。SN6800 交换机可通过 512 个 800 Gb/s 端口或 2048 个 200 Gb/s 端口提供 409.6 Tb/s 的总带宽,利用其集成的光纤 shuffle 和光电一体封装的硅光技术建立空间高效和节能高效的以太网解决方案。这些综合创新为 AI 工厂创建了强大、可扩展的网络基础设施,助力新一代 AI 应用。

图 3. 基于 Spectrum-X 以太网硅光技术的 SN6800 和 SN6810 以太网交换机
AI 工厂网络创新的下一步发展方向
这种全面的协同设计方法 (包括芯片、系统、软件和 AI 模型) 有助于开发可扩展、高性能的 AI 工厂。Spectrum-X 以太网硅光交换机可为 AI 工厂提供超低抖动网络,从而提高速度、可靠性和可扩展性,为新一代应用建立强大的基础设施。有关更多信息,请参阅NVIDIA 硅光技术页面。