Fagani Hajizada

Fagani Hajizada 是 NVIDIA 的高级软件工程师,专注于大规模 GPU 集群上 HPC 和 AI 工作负载的调度和编排。他负责设计和交付为生产级 AI 系统提供支持的基础架构,涵盖基于 Kubernetes 的 HPC、分布式系统、可观察性和开发者工具。Fagani 还为开源项目做出贡献,包括 Slinky、gpu-operator、kubernetes-sigs/node-feature-discover 和/kubernetes-sigs/e2e-framework。

Posts by Fagani Hajizada

数据中心/云端

使用 Slurm 在 Kubernetes 上运行大规模 GPU 工作负载

Slurm 是适用于 Linux 的开源集群管理和作业调度系统。它可以管理超过 65% 的 TOP500 系统 的作业调度。 3 MIN READ