NVIDIA CUDA-X 库
NVIDIA CUDA-X™ 构建于 NVIDIA® CUDA® 之上,是一套功能强大的库集合,旨在为各类 AI 和高性能计算场景提供高水平 GPU 加速——从生成式 AI 和自主机器,到气候建模和金融预测等应用。无论是资源受限的 IoT 设备,还是全球规模领先的超级计算机,NVIDIA CUDA-X 库都提供针对复杂算法高度优化的实现,其表现远超仅依赖 CPU 的方案。对于希望构建或扩展应用的开发者而言,CUDA-X 为在各个领域充分释放硬件性能提供了一条高效且易用的路径。
组成部分
CUDA 数学库
GPU 加速的数学库为分子动力学、计算流体力学、计算化学、医学成像和地震勘探等领域的计算密集型应用奠定了基础。
科学计算库
适用于需要遵守数学对称性的神经网络的应用,特别是对分子结构、蛋白质和材料等 3D 几何数据的等方差。
物理库
GPU 加速的物理库和框架可在计算物理学、多物理学、量子物理学和天气建模等领域加速仿真。
NVIDIA Warp
这是一款专门构建的开源 Python 框架,可为计算物理、AI 和优化工作流提供 GPU 加速,为仿真 AI、机器人和机器学习提供基于内核的程序。
NVIDIA PhysicsNeMo
用于大规模构建、训练和微调 AI 物理模型的开源 Python 框架。
NVIDIA Earth-2
全面的开放模型、库和框架系列,可在全球范围内普及专业级天气和气候 AI 的使用。
量子计算库
实现用于量子计算的仿真、HPC 集成和 AI。
cuQuantum
一组用于加速量子计算仿真的高度优化库。
cuPQC
用于加速后量子密码学 (PQC) 工作流程的优化库 SDK。
CUDA-Q QEC
用于模拟和实施噪声弹性量子算法及纠错的库。
CUDA-Q Solvers
GPU 加速求解器,用于混合量子 - 经典优化和变分工作负载。
深度学习核心库
GPU 加速库,适用于使用 CUDA 和 GPU 专用硬件组件的深度学习应用程序。
NVIDIA cuDNN
用于深度学习的 GPU 加速深度神经网络基础模组 (“基元”) 库。
NVIDIA TensorRT™ 和 TensorRT LLM
用于生产部署的高性能深度学习推理优化器和运行时。
CUTLASS
模块化 C++ 模板和 Python DSL,用于构建面向 NVIDIA Tensor Core 的高性能内核。
FlashInfer
GPU 加速的内核库,可通过 Python API 访问,用于推理、优化注意力、MoE、GEMM、通信和其他神经网络操作。
并行算法库
CUDA 核心计算库 (CCCL) 提供 C++ 和 Python 中的 GPU 加速算法。它们提供经过优化的并行基元,以解决自然科学、物流、旅行规划等领域的复杂挑战。
Thrust
基于 C++ STL 的强大数据并行库,可让开发者在不牺牲性能的情况下,在高级 API 中实现复杂的 GPU 加速算法。
CUB
用于 CUDA 内核创作的协作基元,可在 CUDA 编程模型中提供线程束范围、块范围和设备范围的集合基元。
cuda.compute
用于高性能设备级 CCCL 算法的 Python 接口,使开发者能够直接在 Python 工作流中利用 CUDA 并行处理。
cuda.parallel
适用于分布式和本地并行模式 (例如排序、扫描和归约) 的标准化基元,已针对最新的 NVIDIA GPU 架构进行优化。
数据处理库
GPU 加速库可加速表格、文本和图像数据的数据处理工作流程。
cuDF
无需更改代码即可加速表格数据,包括 pandas、Polars 和 Apache Spark。
cuVS
加速数据挖掘和语义搜索应用程序的向量搜索,包括 GPU 原生最近邻算法 CAGRA 的出色性能。
cuML
无需更改代码,即可在 scikit-learn、UMAP、HDBSCAN 和 Apache Spark 中加速 ML 算法。
cuOpt
GPU 加速的开源决策优化引擎,旨在解决具有数百万变量和约束的大规模问题,从而加速决策制定。
cuGraph
利用 GPU 加速的 NetworkX 扩展和加速图形分析。
NeMo Curator
通过大规模处理文本、图像和视频数据进行训练和自定义,以及用于生成合成数据的预构建工作流,提高生成式 AI 模型的准确性。
Morpheus
开放式应用程序框架,可优化网络安全 AI 工作流,用于分析大量实时数据。
nvComp
高吞吐量 GPU 加速的压缩和解压缩库,可更大限度地减少存储占用,并提高 AI 训练、HPC、数据科学和分析应用的数据传输速率。
GPU Direct Storage
NVIDIA GPUDirect Storage 可在本地或远程存储 (例如 NVMe 或 NVMe over Fabric (NVMe-oF)) 与 GPU 显存之间创建直接数据路径。
Dask
借助 Dask 上的 NVIDIA RAPIDS,将数据科学工作流扩展到多个节点。
图像和视频库
GPU 加速库,用于使用 CUDA 和 GPU 的专用硬件组件进行图像和视频解码、编码和处理。
nvImageCodec
GPU 加速的图像编解码器库具有用于高吞吐量图像编码和解码的统一接口,可作为适用于各种编解码器插件的可扩展框架而构建。
NVIDIA DALI
GPU 加速库,用于加载和预处理数据,以加速图像、视频和音频模式的深度学习应用程序。
CV-CUDA
开源库,用于视觉 AI 工作流中的高性能 GPU 加速预处理和后处理。
cuCIM
开源加速计算机视觉和图像处理库,用于生物医学、地理空间、材料、医疗健康和遥感用例中的多维图像。
NVIDIA 性能基元 (NPP)
GPU 加速的高度优化基元库,用于基于 CUDA 的 2D 图像和信号处理,包括过滤、颜色转换和图像处理。
NVIDIA 视频编解码器 SDK
在 Windows 和 Linux 上进行硬件加速的视频编码和解码。
NVIDIA Optical Flow SDK
展示 NVIDIA GPU 的最新硬件功能,专用于计算图像之间像素的相对运动。
通信库
性能经过优化的多 GPU 和多节点通信基元。
NVSHMEM
基于 OpenSHMEM 单向通信模型,跨 GPU 显存提供分区全局地址空间。
NCCL
用于快速多 GPU、多节点通信的开源库,可在保持低延迟的同时更大限度地提高带宽。
NIXL
低延迟推理传输库,可在 GPU、内存层和存储之间移动 KV 缓存和张量。
合作伙伴库
OpenCV
GPU 加速的用于计算机视觉、图像处理和机器学习的开源库,现已支持实时操作。
FFmpeg
包含音频和视频处理插件库的开源多媒体框架。
ArrayFire
GPU 加速的开源库,用于矩阵、信号和图像处理。
MAGMA
Magma 提供的用于异构架构的 GPU 加速线性代数例程。
IMSL Fortran 数值库
由 RogueWave 提供的 GPU 加速开源 Fortran 库,包含数学、信号和图像处理以及统计功能。
Gunrock
专为 GPU 设计的图形处理库。
CHOLMOD
适用于稀疏直接求解器的 GPU 加速函数,包含在 SuiteSparse 线性代数包中。
ArrayFire
Triton 提供海洋、游戏中的水体、仿真和训练应用的实时可视化仿真。
CUVIlib
用于加速医疗、工业和国防领域成像应用的基元。
CuPy
开源数组库,用于使用 Python 进行 GPU 加速计算,提供与 NumPy/ SciPy 兼容的接口。