CUDA

2026年 3月 5日

控制 NVIDIA CCCL 中的浮点确定性

如果使用相同的输入数据进行多次运行时能够产生完全一致的逐位计算结果，则该计算被称为确定性计算。这看似简单，但在实际中却难以实现，

2 MIN READ

2026年 3月 5日

在 NVIDIA CUDA Tile 中调整 Flash Attention 以实现峰值性能

在本文中，我们将深入探讨现代 AI 中至关重要的工作负载之一：Flash Attention，您将了解：环境要求：

9 MIN READ

2026年 3月 3日

cuTile.jl 为 Julia 带来基于 NVIDIA CUDA Tile 的编程

NVIDIA CUDA Tile 是 NVIDIA CUDA 编程的一项重要新增功能，可自动访问 Tensor Core 和其他专用硬件。

2 MIN READ

2026年 2月 19日

借助 NVIDIA 多实例 GPU 和 NUMA 节点定位加速数据处理

NVIDIA Ampere、NVIDIA Hopper 和 NVIDIA Blackwell 系列中的 NVIDIA 旗舰数据中心 GPU…

3 MIN READ

2026年 2月 18日

登顶 GPU 内核排行榜：借助 NVIDIA CUDA.compute 实现卓越性能

Python 在符合人体工程学的机器学习领域占据主导地位，但编写真正高效的 GPU 代码历来需要使用 C++ 编写自定义内核，

2 MIN READ

2026年 2月 10日

使用加速计算在大型研究设施中实时引导科学实验

设计和建造独特科学研究设施的科学家与工程师同样面临诸多挑战，其中包括处理超出当前计算基础设施承载能力的海量数据速率，

3 MIN READ

2026年 1月 30日

使用通用稀疏张量建立可扩展的稀疏生态系统

稀疏张量是向量、矩阵以及高维数组在包含大量零元素情况下的推广形式。由于其在存储、计算和功耗方面的高效性，稀疏张量在科学计算、

5 MIN READ

2026年 1月 30日

借助 CUDA Tile IR 后端推进 OpenAI Triton 的 GPU 编程

NVIDIA CUDA Tile 是基于 GPU 的编程模型，其设计目标是为 NVIDIA Tensor Cores 提供可移植性，

2 MIN READ

2026年 1月 21日

使用 Single Call API 简化 CUB

C++ 模板库 CUB 提供了高性能 GPU 基元算法，但其将内存估计与分配分离的传统“两阶段”API 可能带来使用上的不便。

2 MIN READ

2026年 1月 14日

如何在 NVIDIA CUDA Tile 中编写高性能矩阵乘法

本博文是系列课程的一部分，旨在帮助开发者学习 NVIDIA CUDA Tile 编程，掌握构建高性能 GPU 内核的方法，

5 MIN READ

2026年 1月 5日

深度解析 NVIDIA Rubin 平台：六款新芯片打造AI超级计算机

AI 已进入工业阶段。最初是用于执行离散 AI 模型训练和面向人类推理的系统，现已演变为全天候运行的 AI 工厂，持续将功率、

12 MIN READ

2025年 12月 17日

使用 NVIDIA cuDSS 解决大规模线性稀疏问题

随着芯片设计、制造和多物理场仿真复杂性的持续提升，在电子设计自动化（EDA）、

5 MIN READ

2025年 12月 16日

使用 NVIDIA CUDA MPS 无需修改代码即可提升 GPU 显存性能

NVIDIA CUDA 开发者可以利用多种工具和库来简化开发与部署，使用户能够专注于应用程序的“内容”和“方式”。多进程服务 (MPS)…

5 MIN READ

2025年 12月 15日

减小 CUDA 二进制大小以在 PyPI 上分发 cuML

从 25.10 版本开始，现在可以直接从 PyPI 下载用于 pip 安装的 cuML wheels。

3 MIN READ

2025年 12月 10日

更高效的漏洞检测：Compute Sanitizer 编译时插桩如何增强内存安全性

CUDA C++ 是一种带有扩展功能的标准 C++，支持函数在 GPU 的多个并行线程上执行。它在推动广泛应用的同时，

3 MIN READ

2025年 12月 4日

专注于你的算法——让 NVIDIA CUDA Tile 来处理硬件细节

NVIDIA CUDA 13.1 推出 NVIDIA CUDA Tile，这是自 2006 年 NVIDIA CUDA 平台发明以来，

2 MIN READ