线上获取开发者见解,在 GTC 2022 与专家交流。免费注册 >

NVIDIA cuDNN

NVIDIA CUDA® 深度神经网络库 (cuDNN) 是经 GPU 加速的深度神经网络基元库。cuDNN 可大幅优化标准例程(例如用于前向传播和反向传播的卷积层、池化层、归一化层和激活层)的实施。

世界各地的深度学习研究人员和框架开发者都依赖 cuDNN 实现高性能 GPU 加速。借助 cuDNN,研究人员和开发者可以专注于训练神经网络及开发软件应用,而不必花时间进行低层级的 GPU 性能调整。cuDNN 可加速广泛应用的深度学习框架,包括 Caffe2ChainerKerasMATLABMxNetPyTorchTensorFlow。如需获取经 NVIDIA 优化且已在框架中集成 cuDNN 的深度学习框架容器,请访问 NVIDIA GPU CLOUD 了解详情并开始使用。


下载 cuDNN      GTC2020      开发者指南      论坛     


20.03 NGC 容器上 8 块 Tesla V100 + cuDNN 7.6 和预先发布的 NGC 容器上 8 块 Tesla A100 + cuDNN 8.0 预览版性能对比。MaskRCNN,PyTorch TF32 与 FP32 性能对比,批量大小:8。GNMT,PyTorch TF32 与 FP32 性能对比,批量大小:512。WaveGlow,PyTorch TF32 与 FP32 性能对比,批量大小:10。U-Net 医疗,TensorFlow FP16(混合)与 FP16 性能对比,批量大小:16。U-Net 工业,TensorFlow FP16(混合)与 FP16 性能对比,批量大小:24。TacoTron2,PyTorch FP16(混合)与 FP16 性能对比,批量大小:128。


cuDNN 8 的新功能

cuDNN 8 针对 A100 GPU 进行了优化,可提供高达 V100 GPU 5 倍的开箱即用性能,并且包含适用于对话式 AI 和计算机视觉等应用的新优化和 API。它已经过重新设计,可实现易用性和应用集成,同时还能为开发者提供更高的灵活性。

cuDNN 8 的亮点包括:

  • 已针对 NVIDIA A100 GPU 上的峰值性能进行调优,包括全新 TensorFloat-32、FP16 和 FP32
  • 通过重新设计的低级别 API,可以直接访问 cuDNN 内核,从而实现更出色的控制和性能调优
  • 向后兼容性层仍然支持 cuDNN 7.x,使开发者能够顺利过渡到新版 cuDNN 8 API
  • 针对计算机视觉、语音和语言理解网络作出了新优化
  • 已通过新 API 融合运算符,进而加速卷积神经网络

cuDNN 8 现以六个较小的库的形式提供,能够更精细地集成到应用中。开发者可以下载 cuDNN,也可从 NGC 上的框架容器中将其提取出来。

阅读最新的 cuDNN 发行说明,获取新特性和增强功能的详细列表。

 

主要特性

  • 为所有常用卷积实现了 Tensor Core 加速,包括 2D 卷积、3D 卷积、分组卷积、深度可分离卷积以及包含 NHWC 和 NCHW 输入及输出的扩张卷积
  • 为诸多计算机视觉和语音模型优化了内核,包括 ResNet、ResNext、SSD、MaskRCNN、Unet、VNet、BERT、GPT-2、Tacotron2 和 WaveGlow
  • 支持 FP32、FP16 和 TF32 浮点格式以及 INT8 和 UINT8 整数格式
  • 4D 张量的任意维排序、跨步和子区域意味着可轻松集成到任意神经网络实现中
  • 能为任意 CNN 架构上融合的运算提速

数据中心采用 Ampere、Turing、Volta、Pascal、Maxwell 和 Kepler GPU 架构以及配备移动 GPU 的 Windows 和 Linux 支持 cuDNN。


cuDNN 加速框架


 

了解更多资料