CUDA
2025年 12月 4日
专注于算法 – NVIDIA CUDA Tile 负责处理硬件
自2006年NVIDIA推出CUDA平台以来,CUDA 13.1将迎来一次重大突破——即将发布的NVIDIA CUDA Tile。
2 MIN READ
2025年 12月 4日
在 Python 中借助 NVIDIA CUDA Tile 简化 GPU 编程
NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。
2 MIN READ
2025年 12月 4日
NVIDIA CUDA 13.1 引入 NVIDIA CUDA Tile 等新功能,为下一代 GPU 编程提供更强动力
NVIDIA CUDA 13.1 是自 CUDA 二十年前发明以来,规模最大、内容最全面的一次更新。 最新的版本包含一系列新功能与改进,
1 MIN READ
2025年 11月 19日
使用 GPU 加速计算构建更好的量子位
从药物研发到材料科学,量子计算有望深刻变革科学与工业领域。然而,构建实用的大规模量子计算机仍面临严峻的工程挑战,
2 MIN READ
2025年 11月 13日
如何为您的游戏或应用启用神经网络着色
在过去的 25 年中,实时渲染的发展始终由硬件的持续进步所推动。其目标是在 16 毫秒内生成尽可能高保真的图像,这一需求促进了图形硬件、
6 MIN READ
2025年 11月 13日
通过 Python API 利用 CuTe DSL 实现 CUTLASS C++ 级性能
CuTe,是 CUTLASS 3.x 的核心组件,它提供了统一的代数体系,用于描述数据布局和线程映射,
4 MIN READ
2025年 10月 24日
通过 cuBLAS 中的浮点仿真释放 Tensor Core 性能
NVIDIA CUDA-X 数学库提供基础的数值计算模块,帮助开发者在人工智能和科学计算等多个高性能计算领域中部署加速应用程序。
3 MIN READ
2025年 10月 14日
硬件一致性平台上的内存管理深入剖析
如果您是应用程序开发者或集群管理员,可能已经意识到非统一内存访问(NUMA)会对系统性能产生显著影响。
2 MIN READ
2025年 9月 29日
释放 GPU 性能:CUDA 中的全局内存访问
管理内存是编写 GPU 内核时影响性能的关键因素之一。本文将为您介绍全局内存及其对性能影响的重要知识。 CUDA 设备上存在多种类型的显存,
4 MIN READ
2025年 9月 11日
使用 NVIDIA CUDA 加速的 VC-6 构建高性能视觉 AI 工作流
NVIDIA GPU 持续提升的计算吞吐量为优化视觉 AI 工作负载带来了新的机遇:让硬件持续高效地处理数据。随着 GPU 性能的不断增强,
4 MIN READ
2025年 9月 10日
开发者现在可以直接从自己喜欢的第三方平台下载 CUDA
对开发者而言,构建和部署应用往往充满挑战,需要协调软件与硬件功能之间的复杂关系。确保每个基础软件组件不仅正确安装,而且版本符合要求,
1 MIN READ
2025年 9月 3日
借助 NVIDIA DRIVE AGX Thor 开发者套件加速智能汽车开发
智能汽车(AV)技术是快速发展的,由于更大型、更复杂的AI模型被部署于边缘端推动。如今,现代汽车不仅需要先进的感知能力和传感器融合技术,
3 MIN READ
2025年 9月 2日
适用于 Jetson Thor 的 CUDA 工具包 13.0 的新功能:统一 Arm 生态系统等
随着由 NVIDIA Blackwell GPU 架构驱动的 Jetson Thor SoC 即将支持 CUDA 13.0 版本,
4 MIN READ
2025年 9月 2日
借助启发式算法和 CUTLASS 4.2 提高 NVIDIA GPU 上的 GEMM 内核自动调整效率
为特定问题和硬件选择合适的通用矩阵乘法(GEMM)核函数是一项重大挑战。GEMM 核函数的性能由一系列编译时和运行时的元参数共同决定,
2 MIN READ
2025年 8月 27日
如何通过共享内存寄存器溢出来提高 CUDA 内核性能
当 CUDA 内核所需的硬件寄存器数量超过可用数量时,编译器会将多余的变量溢出到本地内存中,这一过程称为寄存器溢出。
3 MIN READ
2025年 8月 13日
利用 Wheel Variants 简化 CUDA 加速 Python 的安装和打包工作流程
如果您曾经安装过 NVIDIA GPU 加速的 Python 软件包,您可能遇到过这样的场景:导航到 pytorch.org、jax.dev、
4 MIN READ