Mark Chmarny

Mark Chmarny 是 NVIDIA DGX 云组织的首席云架构师,专门从事大规模分布式系统、容器编排和 GPU 加速计算。他专注于基于 Kubernetes 的 AI/ ML 平台、高性能 GPU 集群以及用于训练和推理的多云基础设施。

Posts by Mark Chmarny

数据中心/云端

使用 NVSentinel 自动监控 Kubernetes AI 集群健康状态

Kubernetes 支持生产环境中绝大多数 AI 工作负载。然而,维护 GPU 节点、保障应用稳定运行、持续推进训练任务, 2 MIN READ