NVIDIA GPU 上的基本线性代数

下载 文档 示例 支持 反馈

cuBLAS 库可提供基本线性代数子程序 (BLAS) 的 GPU 加速实现。cuBLAS 利用针对 NVIDIA GPU 高度优化的插入式行业标准 BLAS API,加速 AI 和 HPC 应用。cuBLAS 库包含用于批量运算、跨多个 GPU 的执行以及混合精度和低精度执行的扩展程序。通过使用 cuBLAS,应用将能自动从定期性能提升及新的 GPU 体系架构中受益。cuBLAS 库包含在 NVIDIA HPC SDKCUDA 工具包中。

cuBLAS 多 GPU 扩展

cuBLASMg 提供了先进的多 GPU 矩阵间乘法,您可在多台设备间以 2D 块循环方式分发每个矩阵。cuBLASMg 目前已加入 CUDA 数学库抢先体验计划。立即申请加入此体验计划!

探索新版本中的新变化……

cuBLAS 性能

cuBLAS 库针对 NVIDIA GPU 上的性能进行了高度优化,并利用 Tensor Core 对低精度和混合精度矩阵乘法进行加速。

cuBLAS 的主要特性

  • 全面支持 152 个标准 BLAS 例程
  • 支持半精度和整数矩阵乘法
  • GEMM 和 GEMM 扩展程序针对 Volta 及 Turing Tensor Core 进行了优化
  • 针对各种深度学习模型中使用的规模调整 GEMM 性能
  • 支持用于并发操作的 CUDA 流