NVIDIA CUDA Tile

NVIDIA® CUDA® Tile 是一种基于 tile(分块)的 GPU 编程模型,面向 NVIDIA Tensor Core,旨在实现良好的可移植性。CUDA Tile 通过这种编程模型,简化了在各类 NVIDIA 平台上开发优化的分块(tile-based)内核,从而释放并发挥 GPU 的峰值性能。


开始使用

CUDA Tile 基于 Tile IR 规范及其相关工具,其中包括 cuTile——这是面向用户的 CUDA Tile IR(中间表示)语言支持,目前在 Python 中可用(未来将支持 C++)。NVIDIA 针对这一基于 tile 的编程模型,在 Python 中提供的实现称为 cuTile Python

CUDA Tile IR

面向 tile 编程的虚拟指令集:

  • 使开发者能够在 tile 编程模型这一结构化高性能范式下,直接对 GPU 进行原生编程。

开始使用 CUDA Tile IR

cuTile Python

Python 原生的分块(tiled)内核开发:

  • 以高层 Python 语法无缝表达 CUDA Tile 编程模型。

  • 构建在 Tile IR 规范之上。

  • 允许开发者使用熟悉的 Python 语法来编写、定义和优化基于 tile 的 GPU 内核。

开始使用 cuTile Python

学习资源库

Video

开始使用 cuTile Python

cuTile-Python

直接进入开发环节。通过循序渐进的指南完成环境配置,并立即开始使用 cuTile-Python 入门套件,在 Python 中编写并运行你的第一个分块(tiled)内核。

Video

深入了解:如何使用 cuTile-Python

cuTile-Python

深入探索 cuTile-Python 的全部功能,其中包括关于实现高级分块技术的详细说明和实用示例,以及如何利用该框架来优化并部署你的 GPU 内核。

Tech Blog

CUDA Tile:GPU 编程新时代

CUDA Tile

探索 CUDA Tile,这一由 NVIDIA 设计、旨在从根本上简化并优化并行计算的革命性编程模型。了解 CUDA Tile 的工作原理以及其诞生背后的故事。

Tech Blog

使用 cuTile Python 进行 CUDA Tile 编程

cuTile Python

准备好用 Python 的简洁统一 GPU 性能了吗?这篇博文将带你入门 cuTile Python,详细演示如何借助 Python 语言的强大能力与灵活性来开始定义并部署 CUDA Tile 内核。

OSS (Github)

cuTile Python GitHub

cuTile Python

访问官方的 cuTile Python GitHub 页面,浏览源代码、为项目做出贡献并提交问题报告。获取完整的 API 文档,确保你拥有实现和优化分块内核所需的一切资源。

Documentation

CUDA Tile IR 文档

CUDA Tile IR

正在构建 CUDA Tile 编译器和库?请查阅 CUDA Tile IR 文档,以深入理解实现和面向 CUDA Tile 编程模型所需规范的技术细节。

Documentation

cuTile Python 综合文档

cuTile Python

访问完整的 cuTile Python 文档页面,了解有关安装、API 使用、代码示例和最佳实践的详细信息,为你在 Python 项目中高效利用 CUDA Tile 编程模型提供所需的一切资源。

OSS (Github)

TileGym Github 资源库

TileGym

前往 TileGym 的 GitHub 代码库。TileGym 是一个 CUDA Tile 内核库,提供了丰富的内核教程和示例,用于基于 tile 的 GPU 编程。同时,它还展示了如何将 CUDA Tile 集成到 Llama 3 和 DeepSeek V2 等真实的大语言模型中。


更多资源

NVIDIA Developer Program

加入 NVIDIA 开发者计划

NVIDIA Training and Certification

获取培训和认证

NVIDIA CUDA Newsletter

注册 CUDA 时事通讯

立即开始使用 CUDA Tile。

探索快速入门指南