Posts by Dheevatsa Mudigere
数据中心/云端
2026年 5月 21日
借助 Slurm 拓扑感知型作业调度功能,在 NVIDIA GB200 NVL72 上实现百万兆级性能
随着AI模型的规模和复杂性持续提升,要充分发挥现代加速基础设施的性能,关键在于如何合理分配工作负载以及硬件的部署方式。
3 MIN READ
数据中心/云端
2025年 5月 14日
借助 NVIDIA Nemo 框架,在远程数据中心网络中加速 LLM 训练
多数据中心训练对 AI 工厂至关重要,因为预训练扩展会推动更大模型的创建,导致对计算性能的需求超过单个设施的能力。
2 MIN READ