数据中心/云端

2026年 4月 2日

使用批量模式 VC-6 和 NVIDIA Nsight 加速视觉 AI 工作流

在视觉 AI 系统中，模型吞吐量不断提高。周围的工作流阶段必须与时俱进，包括解码、预处理和 GPU 调度。在上一篇文章中，

3 MIN READ

2026年 4月 2日

为资本市场实现单位数微秒级延迟推理

在算法交易中，缩短对市场事件的响应时间至关重要。为了与高速电子市场保持同步，对延迟敏感的公司通常使用 FPGA 和 ASIC 等专用硬件。

3 MIN READ

2026年 4月 1日

NVIDIA Extreme Co-Design 带来 MLPerf 推理新纪录

共同设计的硬件、软件和模型是提供更高 AI 工厂吞吐量和更低词元成本的关键。测量这一点远远超出了峰值芯片规格。

3 MIN READ

2026年 4月 1日

使用统一服务和实时 AI 加速 AI 工厂的词元生产

在当今的 AI 工厂环境中，性能并不是理论性的。它是经济、竞争和生存的。可用 GPU 时间每减少 1%，就意味着每小时损失数百万词元。

2 MIN READ

2026年 3月 25日

通过整合未充分利用的 GPU 工作负载，更大限度地提高 AI 基础设施吞吐量

在生产 Kubernetes 环境中，模型要求与 GPU 大小之间的差异导致效率低下。轻量级自动语音识别 (ASR) 或文本转语音…

3 MIN READ

2026年 3月 25日

通过更大限度地提高每瓦性能，提高词元工厂收入和 AI 效率

在 AI 时代，电力是终极限制，每个 AI 工厂都在硬极限内运行。这使得每瓦性能 (将功率转换为创收智能的速率) 成为现代 AI…

2 MIN READ

2026年 3月 23日

为机密 AI 工厂构建零信任架构

AI 正在从实验转向生产。但是，企业需要的大多数数据都存在于公有云之外。这包括敏感信息，如患者记录、市场研究和包含企业知识的传统系统。此外，

2 MIN READ

2026年 3月 23日

在 Kubernetes 上部署解 LLM 推理工作负载

随着大语言模型 (LLM) 推理工作负载的复杂性不断增加，单个单一的服务进程开始达到其极限。预填充和解码阶段具有截然不同的计算配置文件，

4 MIN READ

2026年 3月 19日

NVIDIA Vera Rubin POD：7 个芯片、5 个机架级系统、1 台 AI 超级计算机

人工智能由 token 驱动。每个提示、推理步骤和智能体交互都会生成 tokens。在过去一年中，token 的消耗量增长了数倍，

5 MIN READ

2026年 3月 16日

NVIDIA Dynamo 1.0 如何助力量产级多节点推理

推理模型的规模正在迅速增长，并且越来越多地集成到与其他模型和外部工具交互的代理式 AI 工作流中。

4 MIN READ

2026年 3月 16日

借助 NVIDIA DSX Air 设计、仿真并扩展 AI 工厂基础设施

构建 AI 工厂的复杂性源于需要高效集成计算、网络、安全与存储系统。为了快速部署 AI 并提高投资回报率，全新 NVIDIA DSX Air…

2 MIN READ

2026年 3月 9日

从解服务中移除猜测

部署和优化大语言模型 (LLM) 以实现高性能、经济高效的服务可能是一项艰巨的工程难题。任何给定工作负载 (例如硬件、并行和预填充/

3 MIN READ

2026年 3月 5日

NVIDIA Blackwell 刷新金融领域大模型推理 STAC-AI 历史纪录

大语言模型（LLM）通过精密分析大量非结构化数据，生成切实可行的交易见解，正在重塑金融交易格局。这些先进的 AI 系统能够处理金融新闻、

3 MIN READ

2026年 2月 27日

借助 NVIDIA Run:ai 与 NVIDIA NIM 充分释放 GPU 性能潜力

部署 LLM 的组织面临着推理工作负载的挑战，这些工作负载具有差异化的资源需求。小型嵌入模型可能仅需几 GB 的 GPU 显存，

4 MIN READ

2026年 2月 25日

借助 NVIDIA Blackwell Ultra 提升 Softmax 的效率

LLM 上下文长度呈爆炸式增长，架构正朝着更复杂的注意力机制发展，例如多头潜在注意力（MLA）和分组查询注意力（GQA）。因此，

2 MIN READ

2026年 2月 19日

借助 NVIDIA 多实例 GPU 和 NUMA 节点定位加速数据处理

NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Blackwell 系列中的 NVIDIA 旗舰数据中心 GPU…

3 MIN READ