Nathan Taber

Nathan Taber 是一位产品经理,他帮助定义了现代云和 AI 基础设施的构建方式。在 AWS,他是 Amazon EKSteam 的创始成员,并通过 EKS、Karpenter 和更广泛的 OSS 生态系统帮助定义了 AWS 的 Kubernetes。在 NVIDIA,他帮助为大规模 AI 基础设施定义 GPU 加速的 Kubernetes 和健康自动化模式,从而影响云提供商及其客户如何可靠地大规模运行生产级 GPU 工作负载。

Posts by Nathan Taber

数据中心/云端

使用 NVSentinel 自动监控 Kubernetes AI 集群健康状态

Kubernetes 支持生产环境中绝大多数 AI 工作负载。然而,维护 GPU 节点、保障应用稳定运行、持续推进训练任务, 2 MIN READ