生成式 AI 和 AI 智能体的推理将推动 AI 计算基础设施从边缘分配到中央云的需求。 IDC 预测 ,“商业 AI (消费者除外) 将为全球经济贡献 19.9 万亿美元,并占 GDP 的 3.5% 直到 2030 年。”
5G 网络还必须不断发展,以服务于新传入的人工智能流量。在此过程中,电信公司有机会成为托管企业人工智能工作负载的本地人工智能计算基础设施,独立于网络连接,同时满足其数据隐私和主权要求。这是加速计算基础设施的亮点所在,能够加速无线电信号处理和人工智能工作负载。最重要的是,相同的计算基础设施可用于处理人工智能和无线电接入网(RAN)服务。这种组合被电信行业称为 AI-RAN 。
NVIDIA 正在推出 Aerial RAN Computer-1,这是全球首个 AI-RAN 部署平台,可以在通用加速基础设施上同时服务 AI 和 RAN 工作负载。
继 T-Mobile 推出 AI-RAN 创新中心后 ,Aerial RAN Computer-1 通过电信公司可在全球采用的可部署平台将 AI-RAN 变为现实。它可用于小型、中型或大型配置,在基站、分布式或集中式站点进行部署,从而有效地将网络转变为多用途基础设施,为语音、视频、数据和 AI 流量提供服务。
这是一种变革性解决方案,可利用 AI 重塑无线网络,为电信公司提供了一个巨大的机会。电信公司可以利用其分布式网络基础设施、低延迟、有保证的服务质量、大规模以及保护数据隐私、安全和本地化的能力 (这些都是 AI 推理和代理 AI 应用的关键需求),推动 AI 飞轮发展。
AI-RAN、AI Aerial 和 Aerial RAN Computer-1
AI-RAN 是构建多用途网络(同时也是 AI 原生网络)的技术框架。随着电信公司采用 AI-RAN,并从传统的基于 ASIC 的单一用途 RAN 计算网络转向基于多用途加速计算的新型网络,同时为 RAN 和 AI 提供服务,电信公司现在可以参与新的 AI 经济,并可以利用 AI 提高网络效率。
NVIDIA AI Aerial 包含三个计算机系统,用于设计、模拟、训练和部署基于 AI-RAN 的 5G 和 6G 无线网络。Aerial RAN Computer-1 是 NVIDIA AI Aerial 的基础,为 AI-RAN 提供了商业级部署平台。
Aerial RAN Computer-1 (图 1) 为运行 RAN 和 AI 工作负载提供了通用的可扩展硬件基础,包括 – 软件定义的 5G、NVIDIA 或其他 RAN 软件提供商提供的私有 5G RAN、容器化网络函数、NVIDIA 或合作伙伴提供的 AI 微服务,或托管内部和第三方生成式 AI 应用。Aerial RAN Computer-1 采用模块化设计,支持从 D-RAN 扩展到 C-RAN 架构,涵盖农村到密集城市的用例。
NVIDIA CUDA-X 库是加速计算的核心,为速度、准确性和可靠性提供了改进,并提高了效率。这意味着在相同的功率范围内完成更多的工作。最重要的是,特定领域的库 (包括电信行业特定的适应) 是使 Aerial RAN Computer-1 适合电信部署的关键。
NVIDIA DOCA 提供了一套工具和库,可以显著提升电信工作负载的性能,包括 RDMA、PTP/定时同步和基于以太网的前传(eCPRI),以及对现代网络基础设施至关重要的 AI 工作负载。
整个堆栈共同支持可扩展的硬件、通用软件和开放式架构,与生态系统合作伙伴一起提供高性能的人工智能无线接入网(AI-RAN)。
Aerial RAN Computer-1 的优势
借助 Aerial RAN Computer-1,无线网络可以转变为人工智能和射频接入网络(RAN)数据中心的大规模分布式网格,为电信公司开辟新的盈利途径,同时通过软件升级为 6G 铺平道路。
Aerial RAN Computer-1 为电信服务提供商带来的好处包括:
- 借助 AI 和生成式 AI 应用、边缘 AI 推理或 NVIDIA GPU 即服务获利。
- 与目前利用率通常仅为 30% 的单用途基站相比,基础设施的利用率提高了 2-3 倍。使用相同的基础设施托管内部生成式 AI 工作负载和其他容器化网络功能 (例如 UPF 和 RIC)。
- 通过特定站点的 AI 学习提高无线电网络性能,频谱效率可提高高达两倍。这意味着每 MHz 频谱的直接成本节约。
- 为将 AI 融入每次交互的新一代应用提供高性能 RAN 和 AI 体验。Aerial RAN Computer-1 在仅支持 RAN 的模式下可提供高达 170 Gb/s 的吞吐量;在仅支持 AI 的模式下可提供高达 25,000 个令牌/秒的吞吐量;或两者兼得,性能优于传统网络。
Aerial RAN Computer-1 基础模组
Aerial RAN Computer-1 的关键硬件组件包括:
- NVIDIA GB200 NVL2
- NVIDIA Blackwell GPU
- NVIDIA Grace CPU
- NVLink2 C2C
- 第五代 NVIDIA NVLink
- 键值缓存
- MGX 参考架构
- 实时主流 LLM 推理
NVIDIA GB200 NVL2
Aerial RAN Computer-1 中使用的 NVIDIA GB200 NVL2 平台 (图 2)彻底改变了数据中心和边缘计算,为主流大语言模型 (LLMs)、vRAN、向量数据库搜索和数据处理提供了出色的性能。
该横向扩展单节点架构由两个 NVIDIA Blackwell GPU 和两个 NVIDIA Grace CPU 提供支持,可将加速计算无缝集成到现有基础架构中。
这种通用性支持广泛的系统设计和网络选项,使 GB200 NVL2 平台成为寻求利用 AI 和无线 5G 连接功能的数据中心、边缘和基站位置的理想选择。
例如,GB200 服务器的一半可以分配给 RAN 任务,另一半可以通过 多实例 GPU (MIG) 技术在单个基站上进行 AI 处理。对于聚合站点,一个完整的 GB200 服务器可以专用于 RAN,另一个专用于 AI。在集中部署中,一个 GB200 服务器集群可以在 RAN 和 AI 工作负载之间共享。
NVIDIA Blackwell GPU
NVIDIA Blackwell 是一种革命性架构,可提供更高的性能、效率和规模。NVIDIA Blackwell GPU 包含 208 亿个晶体管,并采用定制的 TSMC 4NP 工艺制造。所有 NVIDIA Blackwell 产品都配备两个光罩限制裸片,通过统一的单个 GPU 中的 10-TB/s 芯片间互连技术连接。
NVIDIA Grace CPU
NVIDIA Grace CPU 是一款突破性的处理器,专为运行 AI、vRAN、云和高性能计算 (HPC) 应用的现代数据中心而设计。它提供出色的性能和内存带宽,能效是当今领先服务器处理器的 2 倍。
NVLink2 C2C
GB200 NVL2 平台使用 NVLink-C2C,在每个 NVIDIA Grace CPU 和 NVIDIA Blackwell GPU 之间实现了 900 GB/s 的突破性互联。与第五代 NVLink 相结合,可提供庞大的 1.4-TB 一致性内存模型,从而加速 AI 和 vRAN 性能。
第五代 NVIDIA NVLink
为了充分利用 exascale 计算和 trillion-parameter AI 模型的强大功能,服务器集群中的每个 GPU 都必须无缝、快速地进行通信。
第五代 NVLink 是一种高性能互联技术,可通过 GB200 NVL2 平台提供加速性能。
键值缓存
键值(KV)缓存 通过存储对话上下文和历史记录来提高大型语言模型(LLM)的响应速度。
GB200 NVL2 通过其完全一致的 NVIDIA Grace GPU 和 NVLink-C2C 连接的 NVIDIA Blackwell GPU 显存来优化 KV 缓存,比 PCIe 快 7 倍。这使得 LLM 能够比基于 x86 的 GPU 实现更快地预测单词。
MGX 参考架构
MGX GB200 NVL2 采用 2:2 的配置,CPU C-Link 和 GPU NVLink 相连。
HPM 包含以下组件:
- NVIDIA Grace CPU (2)
- 适用于 GPU 圆盘和 I/O 卡的连接器
- 2U AC 服务器中搭载的 GPU 模组 (2)
每个可插拔 GPU 模块包含 GPU、B2B 连接和 NVLink 连接器。
GPU 计算 | 40 PFLOPS FP4 | 20 PFLOPS FP8/FP6 10x GH200 |
GPU 显存 | 高达 384GB |
CPU | 144 核 ARMv9,960 GB LPDDR5,性能比 2 倍 SPR 提高 1.4 倍,功耗降低 30% |
CPU 到 GPU NVLink C2C |
每个 GPU 900 GB/s 的目录和缓存一致性 |
GPU 到 GPU NVLink |
1800 GB/s 的双向连接,NVLink |
横向扩展 | Spectrum-X 以太网或 InfiniBand Connect-X 或 BlueField |
操作系统 | 单个操作系统,具有覆盖 2 个 CPU 和 2 个 GPU 的统一地址空间。 |
系统功率 | 全系统功率 3500W,可配置 |
时间表 | 示例:2024 年第四季度 MP:2025 年第一季度 |
实时主流 LLM 推理
GB200 NVL2 平台引入了在两个 NVIDIA Grace CPU 和两个 NVIDIA Blackwell GPU 之间共享高达 1.3 TB 的大型一致内存。这种共享内存与第五代 NVIDIA NVLink 和高速芯片到芯片 (C2C) 连接相结合,可为 Llama3-70B 等主流语言模型提供 5 倍的实时 LLM 推理性能。
GB200 NVL2 平台的输入序列长度为 256,输出序列长度为 8000,FP4 精度,每秒可生成高达 25,000 个令牌,即每天可生成 2.16 亿个令牌。
图 3 显示 GB200 NVL2 在支持 AI 和 RAN 工作负载时的表现。
以下是 GB200 NVL2 平台上 RAN 和 AI 的平台租赁情况:
- Workload at 100% utilization
- RAN: 36x 100 MHz 64T64R
- *令牌: 2.5 万个令牌/秒
- AI:*10 美元/小时。 | 约 9 万美元/年
- Workload at 50:50 split utilization
- RAN: 18x 100 MHz 64T64R
- *令牌: 12.5 万个令牌/秒
- AI:< 5 美元/小时。 | 约 4.5 万美元/年
*Token AI 工作负载:Llama-3-70B FP4 | 序列长度输入 256 / 输出 8K
NVIDIA BlueField-3
NVIDIA BlueField-3 DPU 支持实时数据传输,具有前传 eCPRI 流量所需的 5G 精度计时。
NVIDIA 提供完整的 IEEE 1588v2 精度时间协议 (PTP) 软件解决方案。NVIDIA PTP 软件解决方案旨在满足最严苛的 PTP 配置文件。NVIDIA BlueField-3 集成了集成的 PTP 硬件时钟 (PHC),可使设备实现低于 20 纳秒的精度,同时提供与时间相关的功能,包括时间触发调度和基于时间的、软件定义的网络 (SDN) 加速。
这项技术还使软件应用能够以高带宽传输前传、RAN 兼容的数据。
NVIDIA 网络 Spectrum-X
边缘和数据中心网络在推动 AI 和无线技术进步和性能方面发挥着至关重要的作用,是分布式 AI 模型推理、生成式 AI 和世界级 vRAN 性能的支柱。
NVIDIA BlueField-3 DPU 可跨数百和数千个 NVIDIA Blackwell GPU 实现高效可扩展性,从而实现出色的应用程序性能。
NVIDIA Spectrum-X 以太网平台专为提高
基于以太网的 AI 云的性能和效率,并包含 5G 定时同步所需的所有功能。与传统以太网相比,它提供了 1.6 倍的 AI 网络性能,以及在多租户环境中的一致、可预测的性能。
在机架配置中部署 Aerial RAN Computer-1 时, Spectrum-X 以太网交换机可用作双重用途的网络。它可以处理计算网络上的前回传和 AI(东西向)流量,同时还可以在融合网络上传输回传或中回传以及 AI(南北向)流量。远程无线电单元按照 eCPRI 协议终止于交换机。
Aerial RAN Computer-1 上的软件堆栈
Aerial RAN Computer-1 上的关键软件堆栈包括以下内容:
- NVIDIA Aerial CUDA 加速的 RAN
- NVIDIA AI Enterprise 和 NVIDIA NIM
- NVIDIA 云功能
NVIDIA Aerial CUDA 加速的 RAN
NVIDIA Aerial CUDA 加速的 RAN 是 NVIDIA 构建的主要 RAN 软件,适用于在 Aerial RAN Computer-1 上运行的 5G 和私人 5G。
它包含 NVIDIA GPU 加速的可互操作 PHY 和 MAC 层库,可轻松修改并通过 AI 组件无缝扩展。这些强化的 RAN 软件库还可供其他软件提供商、电信公司、云服务提供商(CSP)和企业使用,以构建自定义商业级、软件定义的 5G 和未来的 6G 无线接入网(RAN)。
Aerial CUDA 加速的 RAN 与 NVIDIA Aerial AI 无线电框架集成,后者提供了一系列 AI 增强功能,以便使用 pyAerial、NVIDIA Aerial Data Lake 和 NVIDIA Sionna 等框架工具在 RAN 中进行训练和推理。
NVIDIA Aerial Omniverse 数字孪生 是一个系统级网络数字孪生开发平台,可实现无线系统的物理属性准确仿真。
NVIDIA AI Enterprise 和 NVIDIA NIM
NVIDIA AI Enterprise 是面向企业生成式 AI 的软件平台。 NVIDIA NIM 是一系列微服务,可简化生成式 AI 应用基础模型的部署。
它们共同提供了易于使用的微服务和蓝图,可加速数据科学工作流,并简化生产级 co-pilots 和其他企业生成式 AI 应用的开发和部署。
企业和电信公司可以订阅托管式 NVIDIA Elastic NIM 服务,也可以自行部署和管理 NIM。Aerial RAN Computer-1 可以托管基于 NVIDIA AI Enterprise 和 NIM 的 AI 和生成式 AI 工作负载。
NVIDIA 云功能
NVIDIA Cloud Functions 为 GPU 加速的 AI 工作负载提供无服务器平台,确保安全性、可扩展性和可靠性。它支持各种通信协议:
- HTTP 轮询
- 串流
- gRPC
Cloud Functions 主要适用于运行时间较短、可抢占性的工作负载,例如推理和微调。这种特性非常适合 Aerial RAN Computer-1 平台,因为 RAN 工作负载资源利用率会随着时间的变化而变化。
暂时和抢占性的 AI 工作负载通常可以填补一天中闲置的时间,从而保持 Aerial RAN Computer-1 平台的高利用率。
部署选项和性能
Aerial RAN Computer-1 具有多个部署选项,其中包括无线接入网中的所有点:
- 无线电基站基站基站
- 接入点位置
- 移动交换办公室
- Baseband 酒店
对于私有 5G,它可以位于企业场所。
Aerial RAN computer-1 可以支持各种配置和位置,包括私有云、公有云或混合云环境,同时使用相同的软件,而无论位置或接口标准。与传统的单用途 RAN 计算机相比,这种能力提供了前所未有的灵活性。
该解决方案还支持各种网络技术:
- 开放无线接入网(Open Radio Access Network)架构
- AI-RAN
- 3GPP 标准
- 其他行业领先的规格
与早期的 NVIDIA H100 和 NVIDIA H200 GPU 相比,基于 GB200 的 Aerial RAN Computer-1 在 RAN 处理、AI 处理和能效方面的性能持续提升(图 4)。
GB200 NVL2 平台为现有基础设施提供了一台 MGX 服务器,易于部署和横向扩展。您可以通过高端 RAN 计算获得主流 LLM 推理和数据处理。
结束语
AI-RAN 将彻底改变电信行业,使电信公司能够通过生成式 AI、机器人和自主技术挖掘新的收入来源并提供增强的体验。NVIDIA AI Aerial 平台实现了 AI-RAN,使其与 NVIDIA 实现无线网络 AI 原生的更广阔愿景保持一致。
借助 Aerial RAN Computer-1,电信公司现在可以在通用基础设施上部署 AI-RAN。您可以通过同时运行 RAN 和 AI 工作负载来最大限度地提高利用率,并使用 AI 算法提高 RAN 性能。
最重要的是,借助这台普通计算机,您可以抓住全新的机会,成为需要本地计算和数据所有权来处理 AI 工作负载的企业的首选 AI 网络。您可以从 AI 优先的方法开始,然后选择 RAN,进行软件升级,从第一天开始就最大限度地提高投资回报率。
T-Mobile 和 SoftBank 已宣布计划与领先的 RAN 软件提供商合作,使用 NVIDIA AI Aerial 的硬件和软件组件实现 AI-RAN 的商业化。
在世界移动通信大会上,Vapor IO 和拉斯维加斯市宣布了 全球首个使用 NVIDIA AI Aerial 的私有 5G AI-RAN 部署 。
我们正处于利用人工智能(AI)转变无线网络的转折点。与我们一起参加在华盛顿特区举行的 NVIDIA AI 峰会 以及 NVIDIA 6G 开发者日 活动,详细了解 NVIDIA Aerial AI 和 NVIDIA Aerial RAN Computer-1。