数据中心/云端

AWS AI 基础设施将与 NVIDIA NVLink Fusion 集成,加速 Trainium4 部署

与 NVLink 纵向扩展互连和生态系统合作,AWS 在 AI 基础设施中实现更快的部署和更快的创新周期

随着对 AI 需求的不断增长,超大规模数据中心企业正在寻找方法来加速部署专用 AI 基础设施以达到更高的性能。

亚马逊云科技(AWS)在 AWS re:Invent 上宣布与 NVIDIA 合作集成 NVIDIA NVLink Fusion 以加速部署新的 Trainium4 AI 芯片、Graviton CPU、Elastic Fabric Adapter(EFA)和 Nitro System 虚拟化基础设施。NVIDIA NVLink Fusion 是一个机架级平台,允许各行各业使用 NVIDIA NVLink 纵向扩展(scale-up)互连技术和强大的合作伙伴生态系统。

AWS 正在设计 Trainium4,以与 NVLink 6 和 NVIDIA MGX 机架架构集成,这是 NVIDIA 和 AWS 采用 NVLink Fusion 技术开展多代协作的第一代产品。

凭借出色的纵向扩展网络、完整的技术堆栈和基于该技术构建的全面合作伙伴生态系统,NVLink Fusion 可显著提升性能、提高投资回报、降低部署风险,并加快定制 AI 芯片的上市时间。

部署自定义 AI 芯片面临的挑战

AI 工作负载越来越大,模型变得越来越复杂,快速部署 AI 计算基础设施以满足日益增长的市场需求的压力比以往任何时候都更大。

规划、推理和代理式 AI 等新兴工作负载在数千亿到万亿参数模型和专家混合(MoE)模型架构上运行,需要在单个网络连接起来的许多加速器上并行工作。

满足这些需求需要一个纵向扩展的网络(如 NVLink),通过高带宽、低延迟的互连技术将整个机架内的所有加速器连接在一起。

超大规模数据中心用户在部署此类专用解决方案时面临挑战:

·整机架扩展架构的开发周期较长:除了设计定制 AI 芯片之外,超大规模数据中心还需要开发纵向扩展网络解决方案、横向扩展和存储网络,以及包含托盘、冷却、供电、系统管理和 AI 加速软件等在内的机架设计。这可能会花费数十亿美元,并且需要数年时间才能部署。

·管理复杂的供应商生态系统:生产整机架体系架构需要一个复杂的供应商生态系统,包括 CPU 和 GPU、纵向扩展网络、横向扩展网络、机架和托盘,以及线架、电源架、电源接口板、冷板、冷却液分配单元和快速止断系统等。管理数十家供应商和数十万个组件非常复杂,而一次供应延迟或组件更改可能会使整个项目处于危险之中。

NVLink Fusion 解决了这些挑战,帮助超大规模数据中心企业消除网络性能瓶颈,降低部署风险,并加快定制 AI 芯片的上市时间。

NVLink Fusion 提供机架级 AI 基础设施平台,助力超大规模数据中心和自定义 ASIC 设计用户将自定义 ASIC 与 NVLink 和 OCP MGX 机架级服务器架构集成。

NVLink Fusion 的核心是 NVLink Fusion chiplet。超大规模数据中心用户可以将 chiplet 植入其自定义 ASIC 设计中,以连接到 NVLink 纵向扩展互连和 NVLink Switch。NVLink Fusion 技术产品包括搭载第六代 NVLink Switch 的 Vera-Rubin NVLink Switch 托盘和 400G 自定义 SerDes。它助力 NVLink Fusion 用户连接 72 个自定义 ASIC,并实现每个 ASIC 3.6 TB/s 的  all-to-all 带宽,从而实现总计 260 TB/s 的纵向扩展带宽。

图1. NVLink Fusion Chiplet 可实现 72 个定制  ASIC 芯片的连接,并实现每个 ASIC 3.6 TB/s 的 all-to-all 带宽

NVLink Switch 支持直接使用 load、store 和 atomic 操作实现 P2P 内存访问,以及 NVIDIA SHARP 网络计算技术用于归约和组播加速。

与其他纵向扩展网络技术相比,NVLink 是一项经过验证且被广泛采用的成熟技术。NVLink Switch 在单个纵向扩展域中可以连接 72 个加速器,与 NVIDIA AI 加速软件相结合,可将 AI 推理1的性能和收益提高 3 倍。

图 2. Vera Rubin NVLink Switch 托盘搭载第六代 NVLink 6 Switch,配备 400G 自定义 SerDes

借助经过验证的架构和生态系统,降低开发成本并加快上市时间

NVLink Fusion 用户可以采用模块化产品组合构建 AI 工厂,包括 NVIDIA MGX 机架体系架构、GPU、NVIDIA Vera CPU、光电一体封装交换机(CPO)、NVIDIA ConnectX SuperNIC、NVIDIA BlueField DPU 和 NVIDIA Mission Control 软件,以及由 ASIC 设计者、CPU 和 IP 提供商以及制造商组成的生态系统。

与自行采购技术堆栈相比,NVLink Fusion 技术组合帮助超大规模数据中心企业降低开发成本并缩短上市时间。

AWS 还利用 NVLink Fusion OEM/ODM 和供应商生态系统,该生态系统可提供从机架和机箱到供电和冷却系统等整机架部署所需的所有组件。借助此生态系统,超大规模数据中心可消除部署整机架方案相关的大部分风险。

异构 AI 芯片,同一个整机架基础架构

借助 NVLink Fusion,AWS 还可以使用其 AI 工厂已部署的机房空间、冷却系统和配电设计等来构建异构芯片方案。

NVLink Fusion 采用者可以按需要裁剪平台,每个组件都可以独立使用,帮助他们快速扩展,以满足密集型推理和代理式 AI 模型训练工作负载的需求。

将定制 AI 芯片推向市场很难。借助 NVLink Fusion,超大规模数据中心用户和定制 ASIC 设计者能够利用经过验证的 NVIDIA MGX 机架架构和 NVLink 纵向扩展网络。通过 NVLink Fusion 和 Trainium4 的集成,AWS 将加快创新周期并缩短上市时间。

详细了解NVLink Fusion

1NVL72 GB200 与 NVL8 B200 相比,性能提升了 3 倍,两者都是基于第五代 NVLink,均采用了 NVLink Switch。

标签