数据中心/云端
2026年 4月 14日
NVIDIA NVbandwidth:测量 GPU 互连和显存性能的必备工具
在编写 CUDA 应用程序时,要编写出色的代码,您需要关注的最重要的一点是数据传输性能。这适用于单 GPU 和多 GPU 系统。
3 MIN READ
2026年 4月 11日
MiniMax M2.7 在 NVIDIA 平台上推进复杂 AI 应用的可扩展代理工作流程
MiniMax M2.7 的发布为流行的 MiniMax M2.7 模型增加了增强功能,该模型专为代理式线束以及推理、ML 研究工作流程、
2 MIN READ
2026年 4月 9日
使用 Slurm 在 Kubernetes 上运行大规模 GPU 工作负载
Slurm 是适用于 Linux 的开源集群管理和作业调度系统。它可以管理超过 65% 的 TOP500 系统 的作业调度。
3 MIN READ
2026年 4月 9日
使用约 30 行 Python 和 NVIDIA nvCOMP 降低检查点成本
训练 LLM 需要定期检查点。这些模型权重、优化器状态和梯度的完整快照将保存到存储中,以便在中断后恢复训练。在规模上,这些检查点变得庞大 (…
5 MIN READ
2026年 4月 7日
在机架级超级计算机上运行 AI 工作负载:从硬件到拓扑感知调度
采用 NVIDIA Blackwell 架构的 NVIDIA GB200 NVL72 和 NVIDIA GB300 NVL72…
4 MIN READ
2026年 4月 2日
使用批量模式 VC-6 和 NVIDIA Nsight 加速视觉 AI 工作流
在视觉 AI 系统中,模型吞吐量不断提高。周围的工作流阶段必须与时俱进,包括解码、预处理和 GPU 调度。在上一篇文章中,
3 MIN READ
2026年 4月 2日
为资本市场实现单位数微秒级延迟推理
在算法交易中,缩短对市场事件的响应时间至关重要。为了与高速电子市场保持同步,对延迟敏感的公司通常使用 FPGA 和 ASIC 等专用硬件。
3 MIN READ
2026年 4月 1日
NVIDIA Extreme Co-Design 带来 MLPerf 推理新纪录
共同设计的硬件、软件和模型是提供更高 AI 工厂吞吐量和更低词元成本的关键。测量这一点远远超出了峰值芯片规格。
3 MIN READ
2026年 4月 1日
使用统一服务和实时 AI 加速 AI 工厂的词元生产
在当今的 AI 工厂环境中,性能并不是理论性的。它是经济、竞争和生存的。可用 GPU 时间每减少 1%,就意味着每小时损失数百万词元。
2 MIN READ
2026年 3月 25日
通过整合未充分利用的 GPU 工作负载,更大限度地提高 AI 基础设施吞吐量
在生产 Kubernetes 环境中,模型要求与 GPU 大小之间的差异导致效率低下。轻量级自动语音识别 (ASR) 或文本转语音…
3 MIN READ
2026年 3月 25日
通过更大限度地提高每瓦性能,提高词元工厂收入和 AI 效率
在 AI 时代,电力是终极限制,每个 AI 工厂 都在硬极限内运行。这使得每瓦性能 (将功率转换为创收智能的速率) 成为现代 AI…
2 MIN READ
2026年 3月 23日
为机密 AI 工厂构建零信任架构
AI 正在从实验转向生产。但是,企业需要的大多数数据都存在于公有云之外。这包括敏感信息,如患者记录、市场研究和包含企业知识的传统系统。此外,
2 MIN READ
2026年 3月 23日
在 Kubernetes 上部署解 LLM 推理工作负载
随着大语言模型 (LLM) 推理工作负载的复杂性不断增加,单个单一的服务进程开始达到其极限。预填充和解码阶段具有截然不同的计算配置文件,
4 MIN READ
2026年 3月 19日
NVIDIA Vera Rubin POD:7 个芯片、5 个机架级系统、1 台 AI 超级计算机
人工智能由 token 驱动。每个提示、推理步骤和智能体交互都会生成 tokens。在过去一年中,token 的消耗量增长了数倍,
5 MIN READ
2026年 3月 16日
NVIDIA Dynamo 1.0 如何助力量产级多节点推理
推理模型的规模正在迅速增长,并且越来越多地集成到与其他模型和外部工具交互的代理式 AI 工作流中。
4 MIN READ
2026年 3月 16日
借助 NVIDIA DSX Air 设计、仿真并扩展 AI 工厂基础设施
构建 AI 工厂的复杂性源于需要高效集成计算、网络、安全与存储系统。为了快速部署 AI 并提高投资回报率,全新 NVIDIA DSX Air…
2 MIN READ