1. [主页](/)

NVIDIA DGCM

# NVIDIA DCGM  

NVIDIA Data Center GPU Manager（DCGM）是一套用于在集群环境中管理和监控 NVIDIA 数据中心 GPU 的工具，涵盖主动健康监测、全面诊断、系统告警以及如功耗与频率管理等治理策略。基础设施团队可以独立使用 DCGM，也可便捷集成到 NVIDIA 合作伙伴的集群管理工具、资源调度和监控产品中。  
  
DCGM 简化了数据中心 GPU 管理，提升资源可靠性和运行时间，自动化管理任务，并助力整体基础设施效率提升。DCGM 支持运行在 x86\_64 和 aarch64（sbsa）平台的 Linux 操作系统。安装包中包含用于 API（C 和 Python）的库、二进制文件和源码示例，[Go 语言绑定](https://github.com/NVIDIA/go-dcgm)可在开源 GitHub 仓库获取。更多细节和操作方法详见官方文档。  
  
通过 DCGM-Exporter，DCGM 也可集成到 Kubernetes 生态，实现容器化环境下的丰富 GPU 遥测数据。DCGM 采用开核架构——核心库和组件已开源，但部分功能如诊断和测试仍为专有模块

[文档  
](https://docs.nvidia.com/datacenter/dcgm/latest/index.html &quot;Github Repo&quot;)[DCGM GitHub](https://github.com/NVIDIA/DCGM &quot;Github Repo&quot;)[DCGM-Exporter GitHub  
](https://github.com/NVIDIA/gpu-monitoring-tools &quot;Github Repo&quot;)[DCGM Go 语言绑定  
](https://github.com/NVIDIA/go-dcgm &quot;Github Repo&quot;)

* * *

## NVIDIA DCGM 的工作方式  

NVIDIA Data Center GPU Manager（DCGM）是一款专为管理和监控数据中心 NVIDIA GPU 设计的强大工具，帮助保障 GPU 性能与可靠性。通过 DCGM，管理员可以轻松监控 GPU 资源的健康、性能和利用率。  
  
首先，在每台安装有 NVIDIA GPU 的服务器节点上部署 DCGM。其核心为 libdcgm.so 库。DCGM 可通过 HostEngine 启动服务（作为库的封装），也可在独立应用中直接集成该库进行使用。  
  
作为服务运行时，DCGM 提供两种用户接口：dcgmi 和 DCGM Exporter。dcgmi 提供命令行工具，便于管理员通过命令方式管理和监控 GPU 的性能与健康。DCGM Exporter 则适用于 Kubernetes 等原生集群环境，能导出 GPU 指标和健康数据，实现实时监控与告警，帮助运维人员全面掌握 GPU 集群的运行状态。  
  
DCGM 同时支持主动和被动的 NVIDIA 硬件诊断。管理员可通过易用界面或命令行工具访问相应数据，并设定异常和性能问题的告警。通过提前发现潜在问题并优化 GPU 性能，NVIDIA DCGM 有助于提升数据中心的运行效率和可靠性。

![](https://d29g4g2dyqv443.cloudfront.net/sites/default/files/akamai/datacenter/dcgm-icon.png)

* * *

## 主要优势

### GPU 诊断和系统验证

有效识别故障、性能下降、能效低下及其根本原因。

### GPU 遥测

收集丰富的 GPU 遥测数据集，以解释作业行为，识别提高利用率和效率的机会，并确定潜在应用程序性能问题的根本原因。

### 主动式 GPU 运行状况监控  

在作业运行时使用低用度、非侵入性运行状况监控，而不会影响应用程序行为和性能。

### 与管理生态系统集成

在 Kubernetes 集群环境中轻松部署基于 DCGM 的监控解决方案。与各种 ISV 解决方案 (如 Bright Cluster Manager、IBM Spectrum LSF) 以及 Prometheus 等开源工具进行开箱即用集成。

* * *

## NVIDIA DCGM 资源

### 博客文章

- [使用 DCGM 监控 Kubernetes 中的 GPU](https://developer.nvidia.com/blog/monitoring-gpus-in-kubernetes-with-dcgm/)
- [使用 NVIDIA Data Center GPU Manager 和 Slurm 进行作业统计](https://devblogs.nvidia.com/job-statistics-nvidia-data-center-gpu-manager-slurm/)
- [使用 NVIDIA Data Center GPU Manager 设置 GPU 遥测  
](https://devblogs.nvidia.com/gpu-telemetry-nvidia-dcgm/)
- [NVIDIA Data Center GPU Manager 简化集群管理](https://devblogs.nvidia.com/nvidia-data-center-gpu-manager-cluster-administration/)

### 文档

- [DCGM 文档](https://docs.nvidia.com/datacenter/dcgm)

### 演讲回放

GTC 2018 演讲：

- GTC 2018 演讲：[使用 NVIDIA Data Center GPU Manager 监控和管理 GPU](http://on-demand.gputechconf.com/gtc/2018/presentation/s8505-gpu-monitoring-and-management-with-nvidia-data-center-gpu-manager-dcgm-v2.pdf)

* * *

##   

立即开始使用 NVIDIA DCGM

[开始使用](https://docs.nvidia.com/datacenter/dcgm/latest/user-guide/getting-started.html#)


