不断呈指数级增长的计算需求正推动功耗持续上升,使数据中心面临巨大压力。在设施功耗受限的背景下,提升每瓦功耗的计算性能,对优化数据中心的整体吞吐能力至关重要。
为帮助用户和系统管理员更好地发挥功率受限数据中心的性能,NVIDIA 推出了数据中心能源优化功率配置文件。这一全新的软件功能随 NVIDIA Blackwell B200 发布,旨在提升能效与性能表现。它结合硬件与软件创新,实现智能化的电源管理,为高性能计算(HPC)和人工智能(AI)工作负载提供粗粒度的用户控制能力。
如本文所述,所提出的工作负载感知优化方案能够在严格的设施功率限制下运行,同时显著提升计算吞吐量。在功率受限的环境中,Blackwell-1 阶段的实施可实现高达 15% 的节能效果,并将关键应用的性能维持在 97% 以上,整体吞吐量最高可提升 13%。
一键式 GPU 配置调优可实现高效性能
尽管专家能够实现类似的节能效果,但所需完成的工作十分关键。为了达到最佳能效,必须对多个独立的功耗和频率控制参数进行调节。影响能效的设置包括 GPU 总功耗、GPU 计算频率与内存频率、NVLink 功率状态以及二级缓存的功耗控制等。调整这些参数是一个耗时且复杂的过程,其中部分设置需要根级别访问权限,而普通用户通常无法获得此类权限。
功率配置文件将 NVIDIA 的专业经验融入工具之中,简化了手动调优的复杂流程,显著提升了能效,同时大幅减少了用户操作负担。
功率配置文件的四个架构层
功率配置文件包含四个架构层级:基础硬件与固件、配置文件抽象框架、管理与监控 API,以及 NVIDIA Mission Control。
第一层 – 基础硬件和固件:涵盖硬件与固件的控制功能,电源配置文件可通过这些功能实现性能与功耗的优化。该层展示了用于调节 GPU SM 时钟、内存时钟、功耗限制及其他相关参数的控制选项。
第 2 层 – 配置文件抽象框架:功率配置文件,即系统“大脑”,是创新的核心。它接收来自第 3 层的高级用户输入,并将其转化为优化设置的配置方案。输入内容包括用户的各项目标:
- 目标为高能效模式(Max-Q)或高性能模式(Max-P)
- 作业类型是什么:AI 训练、AI 推理,还是高性能计算(HPC)?
- 作业的属性为何(例如,是受内存限制还是受计算限制)?
NVIDIA 工程团队在后硅阶段结合工作负载与硬件/固件的专业知识,定义并精细调整第一层控制配置,从而生成经过优化的配置文件。该方法通过针对不同工作负载智能分配功耗,确保系统实现卓越性能。
例如,在内存受限的任务中,功耗分配会更侧重内存性能,优先提升内存和 I/O 速度,而非计算时钟频率。为处理配置冲突并确保系统稳定,仲裁机制将协调矛盾,向用户说明冲突情况及所采用的配置方案。
第 3 层 – 管理和监控 API:支持用户和管理员配置功率管理策略。在此层级,管理员可通过 Redfish API 实现数据中心的“带外”管理,从而统一设定集群范围的配置策略,并对外部事件作出响应,例如根据电力供应商的要求降低整体功耗。
用户可通过 NVSMI、DCGM 和 BCM 等 NVIDIA 工具和 API 访问功率配置文件。然而,大多数系统预计将采用类似 SLURM 的调度器接口,例如在启动训练任务时启用 MAX-Q 功率配置文件。
sbatch --partition-gpu partition --power-profile MAX-Q-Training
--nodes=4 --ntasks-per-node 8 training_job.slurm
第 4 层 – 通过 NVIDIA Mission Control 实现编排:提供统一的高级管理界面,可访问完整的电源配置文件软件堆栈。该一体化平台不仅简化了电源配置文件的使用,还实现了与各类电源控制工具及监控功能(如构建监控系统)的协同工作。同时,Mission Control 配备实时控制面板,便于监控电源配置调整带来的实际影响。
性能提升和节能效果
图3展示了在 1000W 的 NVIDIA B200 GPU 上,采用 Max-Q 模型对 HPC 和 AI 应用的功耗进行优化后,为数据中心吞吐量带来的提升。该配置可节省高达 15% 的电力消耗,同时性能下降仅 3%。
由此节省的电能可用于部署更多 GPU,从而将数据中心的整体吞吐量提升高达 13%。该计算已综合考虑了功耗以及 GPU、CPU 和其他所有组件的影响。
表1对频率缩放与功率配置文件进行了比较。频率调节仅改变GPU的计算时钟频率,是当前广泛采用的节能方式。在推理和训练任务中,功率配置能够实现与频率调节相当甚至更高的功耗节省,同时性能损失减少7%至9%。由于这类工作负载对计算性能高度敏感,频率调节往往会显著影响其运行效率。相比之下,功率配置主要降低系统中对计算性能影响较小的其他组件的功耗,从而在节能的同时更好地维持整体性能。
| NVIDIA Blackwell B200 | 性能下降 | 数据中心节能 |
| 频率缩放 | 10% | 5% |
| 训练配置文件 | 1% | 5% |
| 推理配置文件 | 3% | 8% |
图4展示了采用 1000 瓦 NVIDIA B200 GPU 的 Max-P 配置文件所产生的影响。对于受 TDP 功率限制的应用程序,该功率配置可通过降低 GPU 中非性能瓶颈部分的功耗,使性能关键部分以更高频率运行,从而提升整体性能。此功能可在相同功耗条件下将性能提高 2% 至 3%。在数据中心不受电力限制(例如夜间运行)的场景下,该模式尤为有效。
新一代功率配置文件
尽管首次部署已涵盖 AI 训练、推理和 HPC 的功耗配置文件,后续将按照图5所示的路线图持续推进。下一代配置将整合更多系统组件,包括 CPU、NVSwitch 和网卡。待完整的系统配置文件就绪后,将进一步引入动态功能,利用实时遥测数据和机器学习技术,根据识别出的工作负载自动推荐最优配置。后续还将实现应用程序级别的自适应调节,使其在分配的功耗限制范围内自主优化性能。
最后,通过分解推理,根据动态变化的瓶颈和实时计算需求,灵活调整不同计算任务之间的电源分配。
开始使用功率配置文件
合理的功率配置可使功率受限的数据中心的工作负载提升高达13%,同时还能降低操作复杂度,简化功率与能源应用的调整流程。这不仅让专业人员有更多时间处理其他任务,也使非专业用户能够显著节约能源。
随着数据中心的功率限制日益严格,能效的重要性也不断提升,NVIDIA 致力于应对这一挑战。我们将持续提升功率配置文件的性能,降低其使用门槛,并加大对其他功率与能源管理工具的投入,以最大限度提升每瓦功率的计算效率。
如需了解更多信息,请参阅数据中心能源优化的功耗配置文件并参考相关技术文档。
致谢
本文介绍的研究贡献者包括 Apoorv Gupta、Ian Karlin、Sudhir Saripalli、Janey Guo、Tip Fei、Evelyn Liu、Harsha Sriramagiri、Harish Kumar、Milica Despotovic、Chad Plummer、Douglas Wightman 和 Sidharth Nair。