NVIDIA CUDA-X 库

NVIDIA CUDA-X™ 构建于 NVIDIA® CUDA® 之上,是一套功能强大的库集合,旨在为各类 AI 和高性能计算场景提供高水平 GPU 加速——从生成式 AI 和自主机器,到气候建模和金融预测等应用。无论是资源受限的 IoT 设备,还是全球规模领先的超级计算机,NVIDIA CUDA-X 库都提供针对复杂算法高度优化的实现,其表现远超仅依赖 CPU 的方案。对于希望构建或扩展应用的开发者而言,CUDA-X 为在各个领域充分释放硬件性能提供了一条高效且易用的路径。

NVIDIA CUDA-X Libraries

组成部分



CUDA 数学库

GPU 加速的数学库为分子动力学、计算流体力学、计算化学、医学成像和地震勘探等领域的计算密集型应用奠定了基础。


Decorative image of cuBLAS math library

cuBLAS

GPU 加速的基本线性代数 (BLAS) 库。


了解详情
 Decorative image of cuFFT math library

cuFFT

用于快速里叶变换实现的 GPU 加速库。


了解详情
Decorative image of cuRAND math library

cuRAND

GPU 加速的随机数生成。


了解详情
Decorative image of cuSOLVER math library

cuSOLVER

GPU 加速的密集和稀疏直接求解器。


了解详情
Decorative image of cuSPARSE math library

cuSPARSE

适用于稀疏矩阵的 GPU 加速 BLAS。


了解详情
 Decorative image of cuTENSOR math library

cuTENSOR

GPU 加速的张量线性代数库。


了解详情
Decorative image of cuDSS math library

cuDSS

GPU 加速的直接稀疏求解器库。


了解详情
Decorative image of CUDA math library

CUDA 数学 API

GPU 加速的标准数学函数 API。


了解详情
Decorative image of AmgX math library

AmgX

用于仿真和隐式非结构化方法的 GPU 加速线性求解器。


了解详情

nvmath-python

为 Python 生态系统启用 GPU 加速的数学运算。nvmath-python (测试版) 是一个开源库,可提供对 NVIDIA 数学库中核心数学运算的高性能访问。


了解详情

科学计算库

适用于需要遵守数学对称性的神经网络的应用,特别是对分子结构、蛋白质和材料等 3D 几何数据的等方差。


cuEquivariance

一个开源 Python 库,旨在加速几何感知神经网络的构建和执行,尤其是处理 3D 空间中数据旋转和转换的神经网络。

了解详情

NVIDIA ALCHEMI

一系列特定领域专用的 NVIDIA NIM™ 微服务和工具包,用于加速化学和材料发现 (例如电池材料、催化剂、OLED、美容配方) 。

了解详情

cuLitho

该库针对纳米级计算光刻技术的现代挑战,优化了工具和算法,以使用 GPU 加速计算光刻和半导体制造。

了解详情

cuEST

通过灵活的 API 和高性能基础模组加速工业规模的量子化学,在 GPU 上实现第一性原则的电子结构计算。

了解详情

物理库

GPU 加速的物理库和框架可在计算物理学、多物理学、量子物理学和天气建模等领域加速仿真。


NVIDIA Warp

这是一款专门构建的开源 Python 框架,可为计算物理、AI 和优化工作流提供 GPU 加速,为仿真 AI、机器人和机器学习提供基于内核的程序。

了解详情

NVIDIA PhysicsNeMo

用于大规模构建、训练和微调 AI 物理模型的开源 Python 框架。

了解详情

NVIDIA Earth-2

全面的开放模型、库和框架系列,可在全球范围内普及专业级天气和气候 AI 的使用。

了解详情

量子计算库

实现用于量子计算的仿真、HPC 集成和 AI。

cuQuantum

一组用于加速量子计算仿真的高度优化库。

开始使用

cuPQC

用于加速后量子密码学 (PQC) 工作流程的优化库 SDK。

了解详情

CUDA-Q QEC

用于模拟和实施噪声弹性量子算法及纠错的库。

探索文档

CUDA-Q Solvers

GPU 加速求解器,用于混合量子 - 经典优化和变分工作负载。

探索文档

深度学习核心库

GPU 加速库,适用于使用 CUDA 和 GPU 专用硬件组件的深度学习应用程序。


NVIDIA cuDNN

用于深度学习的 GPU 加速深度神经网络基础模组 (“基元”) 库。

了解详情

NVIDIA TensorRT™ 和 TensorRT LLM

用于生产部署的高性能深度学习推理优化器和运行时。

了解详情

CUTLASS

模块化 C++ 模板和 Python DSL,用于构建面向 NVIDIA Tensor Core 的高性能内核。

了解详情

FlashInfer

GPU 加速的内核库,可通过 Python API 访问,用于推理、优化注意力、MoE、GEMM、通信和其他神经网络操作。

探索文档

并行算法库

CUDA 核心计算库 (CCCL) 提供 C++ 和 Python 中的 GPU 加速算法。它们提供经过优化的并行基元,以解决自然科学、物流、旅行规划等领域的复杂挑战。


Thrust

基于 C++ STL 的强大数据并行库,可让开发者在不牺牲性能的情况下,在高级 API 中实现复杂的 GPU 加速算法。

了解详情

CUB

用于 CUDA 内核创作的协作基元,可在 CUDA 编程模型中提供线程束范围、块范围和设备范围的集合基元。

了解详情

cuda.compute

用于高性能设备级 CCCL 算法的 Python 接口,使开发者能够直接在 Python 工作流中利用 CUDA 并行处理。

探索文档

cuda.parallel

适用于分布式和本地并行模式 (例如排序、扫描和归约) 的标准化基元,已针对最新的 NVIDIA GPU 架构进行优化。

探索文档

数据处理库

GPU 加速库可加速表格、文本和图像数据的数据处理工作流程。

cuDF

无需更改代码即可加速表格数据,包括 pandas、Polars 和 Apache Spark。

了解详情

cuVS

加速数据挖掘和语义搜索应用程序的向量搜索,包括 GPU 原生最近邻算法 CAGRA 的出色性能。

了解详情

cuML

无需更改代码,即可在 scikit-learn、UMAP、HDBSCAN 和 Apache Spark 中加速 ML 算法。

了解详情

cuOpt

GPU 加速的开源决策优化引擎,旨在解决具有数百万变量和约束的大规模问题,从而加速决策制定。

了解详情

cuGraph

利用 GPU 加速的 NetworkX 扩展和加速图形分析。

探索文档

NeMo Curator

通过大规模处理文本、图像和视频数据进行训练和自定义,以及用于生成合成数据的预构建工作流,提高生成式 AI 模型的准确性。

了解详情

Morpheus

开放式应用程序框架,可优化网络安全 AI 工作流,用于分析大量实时数据。

了解详情

nvComp

高吞吐量 GPU 加速的压缩和解压缩库,可更大限度地减少存储占用,并提高 AI 训练、HPC、数据科学和分析应用的数据传输速率。

了解详情

GPU Direct Storage

NVIDIA GPUDirect Storage 可在本地或远程存储 (例如 NVMe 或 NVMe over Fabric (NVMe-oF)) 与 GPU 显存之间创建直接数据路径。

了解详情

Dask

借助 Dask 上的 NVIDIA RAPIDS,将数据科学工作流扩展到多个节点。

前往 GitHub

图像和视频库

GPU 加速库,用于使用 CUDA 和 GPU 的专用硬件组件进行图像和视频解码、编码和处理。


nvImageCodec

GPU 加速的图像编解码器库具有用于高吞吐量图像编码和解码的统一接口,可作为适用于各种编解码器插件的可扩展框架而构建。

了解详情

NVIDIA DALI

GPU 加速库,用于加载和预处理数据,以加速图像、视频和音频模式的深度学习应用程序。

了解详情

CV-CUDA

开源库,用于视觉 AI 工作流中的高性能 GPU 加速预处理和后处理。

了解详情

cuCIM

开源加速计算机视觉和图像处理库,用于生物医学、地理空间、材料、医疗健康和遥感用例中的多维图像。

探索文档

NVIDIA 性能基元 (NPP)

GPU 加速的高度优化基元库,用于基于 CUDA 的 2D 图像和信号处理,包括过滤、颜色转换和图像处理。

了解详情

NVIDIA 视频编解码器 SDK

在 Windows 和 Linux 上进行硬件加速的视频编码和解码。

了解详情

NVIDIA Optical Flow SDK

展示 NVIDIA GPU 的最新硬件功能,专用于计算图像之间像素的相对运动。

了解详情

通信库

性能经过优化的多 GPU 和多节点通信基元。


NVSHMEM

基于 OpenSHMEM 单向通信模型,跨 GPU 显存提供分区全局地址空间。

了解详情

NCCL

用于快速多 GPU、多节点通信的开源库,可在保持低延迟的同时更大限度地提高带宽。

了解详情

NIXL

低延迟推理传输库,可在 GPU、内存层和存储之间移动 KV 缓存和张量。

了解详情

合作伙伴库


OpenCV

GPU 加速的用于计算机视觉、图像处理和机器学习的开源库,现已支持实时操作。

了解详情

FFmpeg

包含音频和视频处理插件库的开源多媒体框架。

了解详情

ArrayFire

GPU 加速的开源库,用于矩阵、信号和图像处理。

了解详情

MAGMA

Magma 提供的用于异构架构的 GPU 加速线性代数例程。

了解详情

IMSL Fortran 数值库

由 RogueWave 提供的 GPU 加速开源 Fortran 库,包含数学、信号和图像处理以及统计功能。

了解详情

Gunrock

专为 GPU 设计的图形处理库。

了解详情

CHOLMOD

适用于稀疏直接求解器的 GPU 加速函数,包含在 SuiteSparse 线性代数包中。

了解详情

ArrayFire

Triton 提供海洋、游戏中的水体、仿真和训练应用的实时可视化仿真。

了解详情

CUVIlib

用于加速医疗、工业和国防领域成像应用的基元。

了解详情

CuPy

开源数组库,用于使用 Python 进行 GPU 加速计算,提供与 NumPy/ SciPy 兼容的接口。

了解详情


资源


View CUDA-X Documentation

文档

View CUDA-X Training

培训

Joing the CUDA-X Community

社区

开始使用


NVIDIA 开发者计划成员可以抢先体验所有 CUDA 库版本以及 NVIDIA 在线错误报告和功能请求系统。


加入开发者计划