最近文章
2026年 2月 2日
使用混合专家并行优化混合专家训练的通信
在 LLM 训练中,超大规模多专家模型 (MoE) 的专家并行 (EP) 通信面临巨大挑战。EP 通信本质上属于多对多模式,
4 MIN READ
2026年 1月 30日
沙箱代理工作流与执行风险管理的实用安全指南
AI 编码智能体通过简化任务和推动测试驱动的自动化开发,使开发者能够更高效地工作。然而,它们也引入了一个常被忽视的重要攻击面:
1 MIN READ
2026年 1月 30日
使用通用稀疏张量建立可扩展的稀疏生态系统
稀疏张量是向量、矩阵以及高维数组在包含大量零元素情况下的推广形式。由于其在存储、计算和功耗方面的高效性,稀疏张量在科学计算、
5 MIN READ
2026年 1月 30日
借助 CUDA Tile IR 后端推进 OpenAI Triton 的 GPU 编程
NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,
2 MIN READ
2026年 1月 28日
更新视觉语言模型的分类器规避
AI 架构的进步解锁了多模态功能,使 Transformer 模型能够在统一的上下文中处理多种类型的数据。例如,
3 MIN READ
2026年 1月 28日
借助动态上下文并行和 NVIDIA Megatron Core 加速可变长度训练
本文将介绍动态上下文并行(Dynamic Context Parallelism,Dynamic-CP),
4 MIN READ
2026年 1月 28日
基于时间的公平共享实现 Kubernetes 集群 GPU 分配均衡
NVIDIA Run:ai v2.24 引入了基于时间的公平分享,这是一种全新的调度模式,可为 Kubernetes 集群实现公平分享调度,
2 MIN READ
2026年 1月 27日
通过开放式即插即用产品加速扩散模型
大规模扩散模型的近期进展深刻改变了生成式 AI 在多个领域的应用,涵盖图像合成、音频生成、3D 素材创建、分子设计等。
2 MIN READ
2026年 1月 27日
使用 NVIDIA TensorRT LLM 部署 MiniMax M2/M2.1 稀疏 MoE 大模型
MiniMax M2/M2.1 是一款面向 Agents 和 Coding 工作流的开源稀疏 MoE 模型,在工具调用、
2 MIN READ
2026年 1月 26日
如何使用 NVIDIA Earth-2 解锁粗略气候投影的局部细节
全球气候模型擅长大局把握,但飓风和台风等局部极端气候现象往往在细节中被忽略。这些现象依然存在,只需借助合适的工具,
3 MIN READ
2026年 1月 26日
NVIDIA TensorRT for RTX 中的自适应推理可实现自动优化
传统上,在各种消费级硬件中部署 AI 应用需要进行权衡。可以针对特定 GPU 配置进行优化,以牺牲便携性为代价来提升性能;
3 MIN READ
2026年 1月 22日
在 NVIDIA Blackwell 数据中心 GPU 上实现 FLUX.2 的 NVFP4 推理扩展
2025 年,NVIDIA 与 Black Forest Labs (BFL) 合作优化 FLUX.1 文本转图像模型系列,
3 MIN READ
2026年 1月 21日
使用 Single Call API 简化 CUB
C++ 模板库 CUB 提供了高性能 GPU 基元算法,但其将内存估计与分配分离的传统“两阶段”API 可能带来使用上的不便。
2 MIN READ
2026年 1月 15日
如何使用合成数据和强化学习训练 AI 智能体执行命令行任务
如果您的计算机智能体能够学习新的命令行界面(CLI),并且在无需编写文件或自由输入 shell 命令的情况下也能安全操作,该怎么办?
3 MIN READ
2026年 1月 14日
NVIDIA DLSS 4.5 推出超分辨率增强与全新动态多帧生成技术
带有多帧生成功能的 NVIDIA DLSS 4 已成为迄今为止普及速度最快的 NVIDIA 游戏技术。
2 MIN READ
2026年 1月 14日
如何在 NVIDIA CUDA Tile 中编写高性能矩阵乘法
本博文是系列课程的一部分,旨在帮助开发者学习 NVIDIA CUDA Tile 编程,掌握构建高性能 GPU 内核的方法,
5 MIN READ