集群管理

借助 NVIDIA GPU 支持的行业领先解决方案，您可以轻松直观地管理 GPU 集群并调度 GPU 集群上的作业。

NVIDIA Base Command Manager

NVIDIA Base Command Manager 可为异构和混合集群提供全面的端到端管理，从而轻松快速地充分利用数据中心基础设施。

Ganglia

适用于集群和 Grids 等高性能计算系统的开源、可扩展的分布式监控系统。它经过精心设计，可实现极低的每节点开销和高度并发。Ganglia 目前在全球数千个集群中使用，并且可以扩展以处理具有数千个节点的集群。

NVIDIA DCGM

用于在集群环境中管理和监控 Tesla™ GPU 的一套工具。

IBM Spectrum LSF

适用于要求严苛的分布式 HPC 环境的强大工作负载管理平台。它提供了一套全面的智能、策略驱动的调度功能，使您能够充分利用所有计算基础设施资源，并确保应用程序性能达到最佳。

Altair PBS 专业版

适用于 HPC 和高吞吐量计算的行业领先的 Altair® PBS Professional® 工作负载管理器和作业调度程序旨在提高生产力、优化利用率和效率，并简化集群、云和超级计算机的管理。PBS Professional 可自动进行作业调度、管理、监控和报告，是复杂的 Top500 系统和小型集群的值得信赖的解决方案。

Altair Grid Engine

Altair® Grid Engine® 是一款领先的分布式资源管理系统，可在数千个数据中心中优化工作负载和资源，提高性能并提高生产力和效率。它通过优化应用程序、容器和服务的吞吐量和性能，在本地、混合和云基础设施中更大限度地共享计算资源，帮助企业组织提高投资回报率 (ROI) 并更快地提供更好的结果。

Moab HPC 套件

Moab® HPC 套件是一个工作负载和资源编排平台，通过模仿真实决策的多维策略，自动实现复杂优化的工作负载调度决策和管理行动。这些策略能够平衡提高作业吞吐量和利用率，以及满足服务水平协议 (SLA) 和优先级。Moab HPC Suite 拥有成功管理全球先进、多样化和数据密集型系统的历史，因此继续成为新一代 HPC 设施的首选工作负载管理解决方案。

SLURM

Slurm 是一款专为满足高性能计算的严苛需求而设计的开源工作负载管理器。Slurm 在世界各地的政府实验室、大学和公司中得到广泛应用。截至 2014 年 11 月的 TOP500 计算机榜单，Slurm 在全球十大强大计算机 (包括 GPU 巨头 Piz Daint) 中执行了工作负载管理，使用了超过 5000 个 NVIDIA GPU。

运行：AI

Run：AI 的计算管理平台可自动编排、调度和管理适用于 AI 工作负载的 GPU 资源。基于 Kubernetes 的平台可让数据科学家访问所需的所有池化计算能力，以便在本地或云端加速 AI。IT 和 MLOps 团队可以实现对 GPU 调度和动态调配的可视化和控制，从而将现有基础设施的利用率提升 2 倍以上。

寻求 GPU 集群相关帮助？
在 NVIDIA 开发者论坛上联系行业专家和 NVIDIA 工程师，CUDA 开发者论坛