GB300
2026年 4月 1日
NVIDIA Extreme Co-Design 带来 MLPerf 推理新纪录
共同设计的硬件、软件和模型是提供更高 AI 工厂吞吐量和更低词元成本的关键。测量这一点远远超出了峰值芯片规格。
3 MIN READ
2026年 3月 16日
NVIDIA Dynamo 1.0 如何助力量产级多节点推理
推理模型的规模正在迅速增长,并且越来越多地集成到与其他模型和外部工具交互的代理式 AI 工作流中。
4 MIN READ
2026年 3月 9日
从解服务中移除猜测
部署和优化大语言模型 (LLM) 以实现高性能、经济高效的服务可能是一项艰巨的工程难题。任何给定工作负载 (例如硬件、并行和预填充/
3 MIN READ
2026年 2月 25日
借助 NVIDIA Blackwell Ultra 提升 Softmax 的效率
LLM 上下文长度呈爆炸式增长,架构正朝着更复杂的注意力机制发展,例如多头潜在注意力(MLA)和分组查询注意力(GQA)。因此,
2 MIN READ
2026年 2月 6日
NVFP4 加速 AI 训练与推理的三大方式
新兴的 AI 模型在规模和复杂性上持续增长,对训练和推理的计算性能需求日益提升,已远超摩尔定律所能满足的范畴。
2 MIN READ