Lalit Adithya

Lalit Adithya 是 NVIDIA 的高级系统软件工程师,在 DGX Cloud 组织内工作。他专注于分布式系统、加速器恢复能力和多云/ 混合云基础设施,专注于为需要加速器的工作负载量身打造弹性、自我修复的 Kubernetes 平台。Lalit 是 NVSentinel 项目的创始成员之一。凭借十多年的软件工程经验,Lalit 为设计和部署大规模云原生解决方案做出了贡献,涵盖业务关键型 Web 应用、DevOps、CI/ CD 自动化和厚客户端开发 — — 始终将安全性作为第一原则,而不是事后考虑。他还是《 Jenkins》的联合作者

Posts by Lalit Adithya

数据中心/云端

使用 NVSentinel 自动监控 Kubernetes AI 集群健康状态

Kubernetes 支持生产环境中绝大多数 AI 工作负载。然而,维护 GPU 节点、保障应用稳定运行、持续推进训练任务, 2 MIN READ