Jill Foster

Jill Foster 是 NVIDIA 的高级 AI-HPC 集群工程师,在 Managed AI Research Superclusters 组工作,专注于提高研究人员的工作效率。Jill 曾在 Oracle 和 AWS 担任高级架构职务,专注于优化 GPU 加速集群和自动化基础设施。从早期的全球天气分析工作到目前对集群效率的关注,Jill 一直致力于弥合前沿研究与可扩展基础设施之间的差距,使其成为可能。

Posts by Jill Foster

数据科学

借助 NCCL Inspector 和 Prometheus 实现实时性能监控和快速调试

分布式深度学习依赖于 NVIDIA 集合通信库(NCCL) 实现快速可靠的 GPU 间通信。当训练速度变慢时, 3 MIN READ