开发工具与技巧
2026年 3月 5日
控制 NVIDIA CCCL 中的浮点确定性
如果使用相同的输入数据进行多次运行时能够产生完全一致的逐位计算结果,则该计算被称为确定性计算。这看似简单,但在实际中却难以实现,
2 MIN READ
2026年 3月 5日
在 NVIDIA CUDA Tile 中调整 Flash Attention 以实现峰值性能
在本文中,我们将深入探讨现代 AI 中至关重要的工作负载之一:Flash Attention,您将了解: 环境要求:
9 MIN READ
2026年 3月 3日
cuTile.jl 为 Julia 带来基于 NVIDIA CUDA Tile 的编程
NVIDIA CUDA Tile 是 NVIDIA CUDA 编程的一项重要新增功能,可自动访问 Tensor Core 和其他专用硬件。
2 MIN READ
2026年 3月 3日
如何利用编码智能体大幅降低游戏运行时的推理成本
NVIDIA ACE 是一套用于构建游戏 AI 智能体的技术。ACE 为游戏中角色的各个部分(从语音到智能,
2 MIN READ
2026年 2月 28日
开发者可用 5 款全新数字孪生产品构建 6G 网络
要实现 6G,电信行业必须应对一项根本性挑战:如何设计、训练并验证那些过于复杂而无法在现实世界中进行测试的 AI 原生网络。
2 MIN READ
2026年 2月 27日
基于 NVIDIA GPU 加速端点,使用千问3.5 VLM 开发原生多模态智能体
阿里巴巴推出了全新开源 千问3.5 系列,专为构建原生多模态智能体而设计。该系列的首个模型是一款总参数为 397B、
1 MIN READ
2026年 2月 27日
借助 NVIDIA Run:ai 与 NVIDIA NIM 充分释放 GPU 性能潜力
部署 LLM 的组织面临着推理工作负载的挑战,这些工作负载具有差异化的资源需求。小型嵌入模型可能仅需几 GB 的 GPU 显存,
4 MIN READ
2026年 2月 23日
采用 NVFP4 低精度训练提升吞吐量,兼顾精度无损
随着 AI 模型和数据集规模的不断扩大,仅依赖更高精度的 BF16 训练已难以满足需求。训练吞吐量预期、内存限制以及成本上升等关键挑战,
3 MIN READ
2026年 2月 18日
登顶 GPU 内核排行榜:借助 NVIDIA CUDA.compute 实现卓越性能
Python 在符合人体工程学的机器学习领域占据主导地位,但编写真正高效的 GPU 代码历来需要使用 C++ 编写自定义内核,
2 MIN READ
2026年 2月 9日
借助 NVIDIA TensorRT LLM AutoDeploy 实现推理优化自动化
NVIDIA TensorRT LLM 使开发者能够为大语言模型 (LLM) 构建高性能推理引擎,但传统上部署新架构往往需要大量手动工作。
3 MIN READ
2026年 2月 4日
如何使用 Nemotron 为 RAG 构建文档处理流程
如果您的 AI 智能体能够像读取文本文件一样轻松地即时解析复杂的 PDF、提取嵌套表格并“查看”图表中的数据,该怎么办?
3 MIN READ
2026年 1月 30日
使用通用稀疏张量建立可扩展的稀疏生态系统
稀疏张量是向量、矩阵以及高维数组在包含大量零元素情况下的推广形式。由于其在存储、计算和功耗方面的高效性,稀疏张量在科学计算、
5 MIN READ
2026年 1月 30日
借助 CUDA Tile IR 后端推进 OpenAI Triton 的 GPU 编程
NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,
2 MIN READ
2026年 1月 27日
通过开放式即插即用产品加速扩散模型
大规模扩散模型的近期进展深刻改变了生成式 AI 在多个领域的应用,涵盖图像合成、音频生成、3D 素材创建、分子设计等。
2 MIN READ
2026年 1月 26日
如何使用 NVIDIA Earth-2 解锁粗略气候投影的局部细节
全球气候模型擅长大局把握,但飓风和台风等局部极端气候现象往往在细节中被忽略。这些现象依然存在,只需借助合适的工具,
3 MIN READ
2026年 1月 21日
使用 Single Call API 简化 CUB
C++ 模板库 CUB 提供了高性能 GPU 基元算法,但其将内存估计与分配分离的传统“两阶段”API 可能带来使用上的不便。
2 MIN READ