数据中心/云端

2026年 4月 1日

NVIDIA Extreme Co-Design 提供新的 MLPerf 推理记录

共同设计的硬件、软件和模型是提供更高 AI 工厂吞吐量和更低词元成本的关键。测量这一点远远超出了峰值芯片规格。

3 MIN READ

2026年 3月 23日

为机密 AI 工厂构建零信任架构

AI 正在从实验转向生产。但是，企业需要的大多数数据都存在于公有云之外。这包括敏感信息，如患者记录、市场研究和包含企业知识的传统系统。此外，

2 MIN READ

2026年 3月 23日

在 Kubernetes 上部署解 LLM 推理工作负载

随着大语言模型 (LLM) 推理工作负载的复杂性不断增加，单个单一的服务进程开始达到其极限。预填充和解码阶段具有截然不同的计算配置文件，

4 MIN READ

2026年 3月 19日

NVIDIA Vera Rubin POD：7 个芯片、5 个机架级系统、1 台 AI 超级计算机

人工智能由 token 驱动。每个提示、推理步骤和智能体交互都会生成 tokens。在过去一年中，token 的消耗量增长了数倍，

5 MIN READ

2026年 3月 16日

NVIDIA Dynamo 1.0 如何助力量产级多节点推理

推理模型的规模正在迅速增长，并且越来越多地集成到与其他模型和外部工具交互的代理式 AI 工作流中。

4 MIN READ

2026年 3月 16日

借助 NVIDIA DSX Air 设计、仿真并扩展 AI 工厂基础设施

构建 AI 工厂的复杂性源于需要高效集成计算、网络、安全与存储系统。为了快速部署 AI 并提高投资回报率，全新 NVIDIA DSX Air…

2 MIN READ

2026年 3月 9日

从解服务中移除猜测

部署和优化大语言模型 (LLM) 以实现高性能、经济高效的服务可能是一项艰巨的工程难题。任何给定工作负载 (例如硬件、并行和预填充/

3 MIN READ

2026年 3月 5日

NVIDIA Blackwell 刷新金融领域大模型推理 STAC-AI 历史纪录

大语言模型（LLM）通过精密分析大量非结构化数据，生成切实可行的交易见解，正在重塑金融交易格局。这些先进的 AI 系统能够处理金融新闻、

3 MIN READ

2026年 2月 27日

借助 NVIDIA Run:ai 与 NVIDIA NIM 充分释放 GPU 性能潜力

部署 LLM 的组织面临着推理工作负载的挑战，这些工作负载具有差异化的资源需求。小型嵌入模型可能仅需几 GB 的 GPU 显存，

4 MIN READ

2026年 2月 25日

借助 NVIDIA Blackwell Ultra 提升 Softmax 的效率

LLM 上下文长度呈爆炸式增长，架构正朝着更复杂的注意力机制发展，例如多头潜在注意力（MLA）和分组查询注意力（GQA）。因此，

2 MIN READ

2026年 2月 19日

借助 NVIDIA 多实例 GPU 和 NUMA 节点定位加速数据处理

NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Blackwell 系列中的 NVIDIA 旗舰数据中心 GPU…

3 MIN READ

2026年 2月 18日

NVIDIA 极致软硬件协同设计如何助力 Sarvam AI 主权模型实现惊人推理性能跃升

随着全球人工智能采用的加速，开发者面临日益严峻的挑战：如何提供符合现实世界延迟和成本要求的大语言模型（LLM）性能。

4 MIN READ

2026年 2月 18日

在 NVIDIA Run:ai 中利用 GPU 解锁大规模 Token 吞吐能力

随着 AI 工作负载的扩展，实现高吞吐量、高效资源利用和可预测的延迟变得愈发关键。 NVIDIA Run:ai 通过智能调度和动态 GPU…

4 MIN READ

2026年 2月 17日

构建 AI 就绪型知识系统：掌握 5 种核心多模态 RAG 功能

企业数据本身具有高度复杂性：现实世界中的文档是多模态的，包含文本、表格、图表与图形、图像、扫描页面、表单以及嵌入式元数据。

3 MIN READ

2026年 2月 6日

NVFP4 加速 AI 训练与推理的三大方式

新兴的 AI 模型在规模和复杂性上持续增长，对训练和推理的计算性能需求日益提升，已远超摩尔定律所能满足的范畴。

2 MIN READ

2026年 2月 2日

使用混合专家并行优化混合专家训练的通信

在 LLM 训练中，超大规模多专家模型 (MoE) 的专家并行 (EP) 通信面临巨大挑战。EP 通信本质上属于多对多模式，

4 MIN READ