NVIDIA DCGM

NVIDIA Data Center GPU Manager(DCGM)是一套用于在集群环境中管理和监控 NVIDIA 数据中心 GPU 的工具,涵盖主动健康监测、全面诊断、系统告警以及如功耗与频率管理等治理策略。基础设施团队可以独立使用 DCGM,也可便捷集成到 NVIDIA 合作伙伴的集群管理工具、资源调度和监控产品中。

DCGM 简化了数据中心 GPU 管理,提升资源可靠性和运行时间,自动化管理任务,并助力整体基础设施效率提升。DCGM 支持运行在 x86_64 和 aarch64(sbsa)平台的 Linux 操作系统。安装包中包含用于 API(C 和 Python)的库、二进制文件和源码示例,Go 语言绑定可在开源 GitHub 仓库获取。更多细节和操作方法详见官方文档。

通过 DCGM-Exporter,DCGM 也可集成到 Kubernetes 生态,实现容器化环境下的丰富 GPU 遥测数据。DCGM 采用开核架构——核心库和组件已开源,但部分功能如诊断和测试仍为专有模块

文档
DCGM GitHubDCGM-Exporter GitHub
DCGM Go 语言绑定


NVIDIA DCGM 的工作方式

NVIDIA Data Center GPU Manager(DCGM)是一款专为管理和监控数据中心 NVIDIA GPU 设计的强大工具,帮助保障 GPU 性能与可靠性。通过 DCGM,管理员可以轻松监控 GPU 资源的健康、性能和利用率。

首先,在每台安装有 NVIDIA GPU 的服务器节点上部署 DCGM。其核心为 libdcgm.so 库。DCGM 可通过 HostEngine 启动服务(作为库的封装),也可在独立应用中直接集成该库进行使用。

作为服务运行时,DCGM 提供两种用户接口:dcgmi 和 DCGM Exporter。dcgmi 提供命令行工具,便于管理员通过命令方式管理和监控 GPU 的性能与健康。DCGM Exporter 则适用于 Kubernetes 等原生集群环境,能导出 GPU 指标和健康数据,实现实时监控与告警,帮助运维人员全面掌握 GPU 集群的运行状态。

DCGM 同时支持主动和被动的 NVIDIA 硬件诊断。管理员可通过易用界面或命令行工具访问相应数据,并设定异常和性能问题的告警。通过提前发现潜在问题并优化 GPU 性能,NVIDIA DCGM 有助于提升数据中心的运行效率和可靠性。


主要优势

GPU 诊断和系统验证

有效识别故障、性能下降、能效低下及其根本原因。

GPU 遥测

收集丰富的 GPU 遥测数据集,以解释作业行为,识别提高利用率和效率的机会,并确定潜在应用程序性能问题的根本原因。

主动式 GPU 运行状况监控

在作业运行时使用低用度、非侵入性运行状况监控,而不会影响应用程序行为和性能。

与管理生态系统集成

在 Kubernetes 集群环境中轻松部署基于 DCGM 的监控解决方案。与各种 ISV 解决方案 (如 Bright Cluster Manager、IBM Spectrum LSF) 以及 Prometheus 等开源工具进行开箱即用集成。


NVIDIA DCGM 资源



立即开始使用 NVIDIA DCGM

开始使用