Posts by Utkarsh Uppal
智能体/生成式 AI
2026年 2月 18日
NVIDIA 极致软硬件协同设计如何助力 Sarvam AI 主权模型实现惊人推理性能跃升
随着全球人工智能采用的加速,开发者面临日益严峻的挑战:如何提供符合现实世界延迟和成本要求的大语言模型(LLM)性能。
4 MIN READ
数据科学
2025年 9月 23日
借助 NVIDIA NeMo 在 FP8 精度下提高训练吞吐量
在之前关于 FP8 训练的博文中,我们探讨了 FP8 精度的基础知识 并深入分析了适用于大规模深度学习的 多种扩展方法。
3 MIN READ
数据科学
2025年 7月 1日
适用于有效 FP8 训练的按张量和按块扩展策略
在本博文中,我们将分解主要的 FP8 缩放策略 (按张量缩放、延迟和电流缩放以及按块缩放 (包括 Blackwell 支持的 MXFP8…
2 MIN READ