Deep dive
2026年 2月 28日
开发者可用 5 款全新数字孪生产品构建 6G 网络
要实现 6G,电信行业必须应对一项根本性挑战:如何设计、训练并验证那些过于复杂而无法在现实世界中进行测试的 AI 原生网络。
2 MIN READ
2026年 2月 25日
借助 NVIDIA Blackwell Ultra 提升 Softmax 的效率
LLM 上下文长度呈爆炸式增长,架构正朝着更复杂的注意力机制发展,例如多头潜在注意力(MLA)和分组查询注意力(GQA)。因此,
2 MIN READ
2026年 2月 23日
采用 NVFP4 低精度训练提升吞吐量,兼顾精度无损
随着 AI 模型和数据集规模的不断扩大,仅依赖更高精度的 BF16 训练已难以满足需求。训练吞吐量预期、内存限制以及成本上升等关键挑战,
3 MIN READ
2026年 2月 19日
借助 NVIDIA 多实例 GPU 和 NUMA 节点定位加速数据处理
NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Blackwell 系列中的 NVIDIA 旗舰数据中心 GPU…
3 MIN READ
2026年 2月 18日
在 NVIDIA Run:ai 中利用 GPU 解锁大规模 Token 吞吐能力
随着 AI 工作负载的扩展,实现高吞吐量、高效资源利用和可预测的延迟变得愈发关键。 NVIDIA Run:ai 通过智能调度和动态 GPU…
4 MIN READ
2026年 2月 10日
使用加速计算在大型研究设施中实时引导科学实验
设计和建造独特科学研究设施的科学家与工程师同样面临诸多挑战,其中包括处理超出当前计算基础设施承载能力的海量数据速率,
3 MIN READ
2026年 2月 2日
使用混合专家并行优化混合专家训练的通信
在 LLM 训练中,超大规模多专家模型 (MoE) 的专家并行 (EP) 通信面临巨大挑战。EP 通信本质上属于多对多模式,
4 MIN READ
2026年 1月 30日
沙箱代理工作流与执行风险管理的实用安全指南
AI 编码智能体通过简化任务和推动测试驱动的自动化开发,使开发者能够更高效地工作。然而,它们也引入了一个常被忽视的重要攻击面:
1 MIN READ
2026年 1月 30日
使用通用稀疏张量建立可扩展的稀疏生态系统
稀疏张量是向量、矩阵以及高维数组在包含大量零元素情况下的推广形式。由于其在存储、计算和功耗方面的高效性,稀疏张量在科学计算、
5 MIN READ
2026年 1月 30日
借助 CUDA Tile IR 后端推进 OpenAI Triton 的 GPU 编程
NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,
2 MIN READ
2026年 1月 28日
基于时间的公平共享实现 Kubernetes 集群 GPU 分配均衡
NVIDIA Run:ai v2.24 引入了基于时间的公平分享,这是一种全新的调度模式,可为 Kubernetes 集群实现公平分享调度,
2 MIN READ
2026年 1月 13日
了解 NVIDIA cuOpt 如何通过原始启发式算法加速混合整数优化
NVIDIA cuOpt 是一款 GPU 加速的优化引擎,旨在为大规模复杂决策问题提供高效、高质量的解决方案。 混合整数规划(MIP)…
2 MIN READ
2026年 1月 9日
多智能体仓库 AI 命令层实现卓越运营和供应链智能
仓库的自动化程度从未如此之高,数据也从未如此丰富,运营要求同样日益提升,但许多仓库仍依赖于无法跟上需求的系统。吞吐量持续攀升,
2 MIN READ
2026年 1月 9日
重塑大模型内存:以上下文为训练数据,实现测试时学习
我们在新闻中不断看到拥有更大上下文窗口的大型语言模型(LLM),它们承诺能够同时查看完整的对话历史、大量书籍或多个代码库。然而,
1 MIN READ
2026年 1月 8日
NVIDIA TensorRT Edge-LLM 加速汽车与机器人领域的 LLM 和 VLM 推理
大语言模型(LLM)与多模态推理系统正迅速突破数据中心的局限。越来越多的汽车与机器人领域的开发者希望将对话式 AI 智能体、
2 MIN READ
2026年 1月 7日
借助 NVIDIA BlueField Astra 重新定义 NVIDIA Vera Rubin NVL72 的安全 AI 基础设施
大规模 AI 创新正在推动对加速计算基础设施的空前需求。训练万亿参数基础模型,采用分解架构支持这些模型,并以高吞吐量处理推理工作负载,
2 MIN READ