智能体/生成式 AI

2026年 6月 11日

借助 NVIDIA Quantum InfiniBand 实现一键式多租户安全

NVIDIA Quantum InfiniBand 现可在 Unified Fabric Manager (UFM)…

2 MIN READ

2026年 6月 10日

在 NVIDIA 上运行 DiffusionGemma，实现开发者就绪型高吞吐量文本生成

构建实时 AI (例如聊天助手、copilot 和代理式工作流) 的开发者通常会受到词元-by-词元生成速度的限制。这限制了响应能力，

2 MIN READ

2026年 6月 9日

借助 NVIDIA DGX Spark Enterprise 可管理性，大规模控制 AI 基础设施的生命周期

随着 AI 基础设施的扩展，企业对运营成熟度的期望与日俱增。组织期望这些系统具备可配置、可观察、安全且可大规模管理的特点，

1 MIN READ

2026年 6月 9日

模型量化：借助 NVIDIA TensorRT 将 FP8 检查点转变为高性能推理引擎

将量化检查点转换为 NVIDIA TensorRT 引擎可以弥合模型优化与生产部署之间的差距，从而实现更快的推理速度、

4 MIN READ

2026年 6月 9日

借助 AI 智能体和 NVIDIA FLARE Auto-FL 加速联邦学习研究

联邦学习 (FL) 研究通常从一个看似简单的问题开始：我们接下来应该尝试什么？在实验开始之前，新的聚合规则、FedProx 系数、

2 MIN READ

2026年 6月 9日

借助智能体技能和 NVIDIA Nemotron 语音，更快地评估临床 ASR 模型

训练语音 AI 模型以正确识别或合成临床术语异常困难。药物名称如 Acetaminophen、Amlodipine、

3 MIN READ

2026年 6月 8日

在 NVIDIA Blackwell 上使用 NVFP4，使用 JAX 和 MaxText 更快地训练模型

对前沿 LLM 进行预训练，可归结为吞吐量。当数千个加速器的训练规模达到数万亿词元时，

3 MIN READ

2026年 6月 4日

NVIDIA Nemotron 3 Ultra 为长时间运行的智能体提供更快、更高效的推理能力

单轮聊天机器人正在演变为长时间运行的智能体，这些智能体可以进行推理、维护上下文、使用工具，并在多轮中高效运行，从而完成复杂的工作流程。但是，

3 MIN READ

2026年 6月 4日

GPU 数据库：从并行计算到原生加速

随着传统通用计算逐渐逼近性能瓶颈，CPU 的单核效率提升已难以支撑爆发式数据增长的处理需求。在人工智能与大规模分析深度融合的当下，

2 MIN READ

2026年 6月 2日

使用 Microsoft 和 NVIDIA 的新工具在 Windows PC 上构建个人 AI 智能体

AI 智能体正在改变您与 PC 的交互方式。创作者、开发者和 AI 爱好者已经在广泛使用这些智能体来协助完成编码、

3 MIN READ

2026年 6月 2日

借助 Hermes 智能体和 NVIDIA NemoClaw 部署自进化智能体，以更快、更安全地进行研究

AI 智能体是一种强大的工具，可用于合成数据，从而加速研究、汇总信息，并帮助团队更快地做出决策。但是，

2 MIN READ

2026年 6月 1日

在 NVIDIA DGX Spark 上使用更快的模型和多节点集群运行本地 AI 智能体

自主、长期运行的 AI 智能体的兴起带来了一种新型计算需求，即维护大型上下文窗口、生成并发子智能体，以及在不依赖云的情况下持续迭代的任务。

2 MIN READ

2026年 5月 31日

借助 NVIDIA Cosmos 3 开发物理 AI 推理模型、世界模型和动作模型

物理 AI 系统必须先了解现实世界，然后才能在其中发挥作用。机器人、智能汽车和智能空间需要了解其环境中发生的情况，预测接下来可能发生的情况，

5 MIN READ

2026年 5月 31日

借助 NVIDIA DOCA 芯片级安全，推进代理式 AI 的 AI 基础设施建设

AI 时代正在催生一种新型基础设施：AI 工厂。AI 工厂能将数据转化为智能，赋能规模空前的自主AI 智能体。借助加速计算，

3 MIN READ

2026年 5月 29日

DynoSim：模拟帕累托前沿

现代 LLM 服务难以调优，因为每一次部署都是一组相互作用的选择堆栈：模型后端、张量并行形状、prefill/decode 拆分、

3 MIN READ

2026年 5月 27日

NVIDIA Dynamo Snapshot：面向 Kubernetes 上推理工作负载的快速启动

在生产环境中的推理部署里，需求会随时间波动，因此推理副本需要弹性扩缩容。然而，在 Kubernetes 上冷启动推理工作负载可能需要几分钟。

4 MIN READ