Posts by Farshad Ghodsian
数据中心/云端
2025年 11月 10日
在 NVIDIA NCCL 2.28 中将通信和计算与新的设备 API 和复制引擎集合融合
NVIDIA 集合通信库(NCCL)的最新版本引入了突破性的通信与计算融合技术,可显著提升多 GPU 和多节点系统中的通信吞吐量,降低延迟,
3 MIN READ
代理式 AI/生成式 AI
2025年 10月 16日
NVIDIA Blackwell 在 SemiAnalysis InferenceMAX v1 基准测试中取得领先表现
SemiAnalysis 近期推出了 InferenceMAX v1,这是一项全新的开源计划,旨在提供一套全面评估推理硬件性能的方法。
3 MIN READ
代理式 AI/生成式 AI
2025年 9月 11日
量化感知训练如何实现低精度恢复
训练 AI 模型后,可采用多种压缩技术来优化模型的部署。其中较为常见的是后训练量化(PTQ),该方法通过数值缩放技术,
3 MIN READ
数据中心/云端
2025年 8月 25日
NVFP4 实现 16 位训练精度,4 位训练速度和效率
近年来,AI工作负载呈指数级增长,这不仅体现在大型语言模型(LLM)的广泛部署上,也反映在预训练和后训练阶段对处理更多token的迫切需求。
2 MIN READ