加入 Netflix、Fidelity 和 NVIDIA ,了解如何构建、训练和部署现代推荐系统。免费注册


深度学习软件



NVIDIA CUDA-X AI是一个完整的深度学习软件堆栈让研究人员和软件开发者能够构建高性能 GPU 加速应用程序,对话式 AI 推荐系统和计算机视觉 CUDA-X AI 库可在各行业基准测试 (如 MLPerf) 中提供出色的训练和推理性能。

各种深度学习框架,包括 PyTorch, TensorFlowJAX 在单个 GPU 上加速,并且可以扩展到多 GPU 和多节点配置。框架开发者和研究人员使用 GPU 优化的 CUDA-X AI 库的灵活性来加速新框架和模型架构。

基于 CUDA-X 构建NVIDIA 的统一编程模型提供了在桌面或数据中心开发深度学习应用程序的方法,并将其部署到数据中心、资源受限的物联网设备以及具有较少或无代码更改的汽车平台。

NVIDIA Omniverse 平台 NVIDIA ® NGC™ 目录 提供预训练模型, 训练脚本, 优化框架容器推理引擎适用于热门深度学习模型。 NVIDIA AI 工具套件包括用于迁移学习、微调、优化和部署预训练模型的库,适用于各种行业和 AI 工作负载

有超过 100 个 NVIDIA Github 涵盖产品、演示、样本和教程,助您快速入门。


deep learning training and inference software chart


与各种框架集成


深度学习框架通过高级编程接口为设计、训练和验证深度神经网络提供构建块。广泛使用的深度学习框架,如 PyTorch, TensorFlowJAX 依靠 GPU 加速库 (如 cuDNN 和 TensorRT) 提供高性能 GPU 加速训练和推理。

您可以在 NGC 中的容器化框架 并集成了 CUDA 库和驱动程序的最新 GPU 优化。容器化框架已通过月度发布进行验证和测试,可在多个边缘和云平台中提供出色的性能。如需详细了解与框架、资源和示例的集成,请访问 深度学习框架页面


logos




深度学习训练



CUDA-X AI 库可在各种框架中加速深度学习训练,通过高性能优化在各种应用 (如对话式 AI, 自然语言理解, 推荐系统计算机视觉。最新的 GPU 性能始终可用于 深度学习训练性能页面

借助 GPU 加速框架,您可以利用 Tensor Core 上的混合精度计算等优化,加速各种模型,并轻松将训练作业从单个 GPU 扩展到包含数千个 GPU 的 DGX SuperPods。

NVIDIA 在 MLPerf 0.6 AI 基准测试中的性能

V100 上的 ResNet-50 v1.5 解决方案时间

MXNet|批尺寸是指以下 CNN V100 训练表|精度:混合|数据集:ImageNet2012|收敛标准 - 参见 MLPerf 要求


随着深度学习在语言理解和对话式 AI 等复杂任务中的应用,模型的规模和训练所需的计算资源呈爆炸式增长。一种常见的方法是从一个基于通用数据集预训练的模型开始,然后针对特定行业、领域和用例进行微调。 NVIDIA AI 工具套件提供库和工具,可从预训练模型开始,执行迁移学习和微调,以便您更大限度地提高 AI 应用程序的性能和准确性。





dali
DALI

数据加载库 (DALI) 是一个 GPU 加速的数据增强和图像加载库,用于优化深度学习框架的数据管线。



了解详情……

neural network
cuDNN

CUDA 深度神经网络 (cuDNN) 是一个高性能库,包含用于深度神经网络应用的构建块,其中包括用于卷积、激活函数和张量转换的深度学习基元。

了解详情……

nccl
NCCL

NVIDIA 集合通信库 (NCCL) 通过例如 all-gather、reduce 和 broadcast 等例程加速多 GPU 通信。


了解详情……


nemo
NeMo

NVIDIA 神经模块 (NeMo) 是一个开源工具包,用于为 AI 加速的语音和语言应用构建先进的神经网络。






了解详情……

tao toolkit
TAO 工具套件

TAO 工具套件 是一个基于 Python 的工具套件,可通过优化预训练模型和应用迁移学习来加速 AI 训练,从而提高准确性。使用 DeepStream SDK 和 TensorRT,可以在 NVIDIA 边缘平台上高效训练和部署经过剪枝的模型,从而创建高性能 AI 系统。

了解详情……
Deep Learning GPU Training System (DIGITS)
DIGITS

NVIDIA深度学习 GPU 训练系统 (DIGITS) 是一种交互式工具,用于在多 GPU 系统上管理数据、设计和训练计算机视觉网络,并实时监控性能,从而选择性能最佳的模型进行部署。




了解详情……


AI-Assisted Annotation Toolkit
AI 辅助标注工具包

AI 辅助标注工具包 是一个工具包,可通过客户端 API 和预训练模型使任何医疗观察器 AI 就绪。


了解详情……


深度学习推理



CUDA-X AI 包括高性能深度学习推理 SDK,大幅降低延迟更大限度地提高吞吐量用于各种应用程序,例如计算机视觉, 对话式 AI推荐系统几秒钟的时间生产环境。与仅使用 CPU 的平台相比,使用 NVIDIA 推理 SDK 开发的应用可在 GPU 上提供高达 40 倍的推理性能。

NVIDIA 的 CUDA-X 推理解决方案基于 CUDA 统一平台构建,可以轻松地在桌面上使用任何框架开发模型,并在数据中心和边缘部署该模型进行推理。

对话式 AI 和推荐系统应用程序管线可为单个客户查询执行 20-30 个具有数百万参数的模型。应用程序的响应速度需要在 300 毫秒内完成整个工作流程,因此对每个模型都提出了非常严格的延迟要求。使用高性能优化和较低精度推理 (FP16 和 INT8)您可以获得显著提升性能比其他平台更快。

最新的 GPU 性能始终可用于 深度学习推理性能页面

使用 TensorRT 在 CNN 上进行推理图像分类

ResNet-50 v1.5 吞吐量

DGX-1:1 块 NVIDIA V100-SXM2-16GB,E5-2698 v4 2.2 GHz|TensorRT 6.0|批尺寸 = 128|19.12-py3|精度:混合|数据集:合成
Supermicro SYS-4029GP-TRT T4:1 块 NVIDIA T4,金牌 6240,2.6 GHz|TensorRT 6.0|批尺寸 = 128|19.12-py3|精度:INT8|数据集:合成

 
 

ResNet-50 v1.5 延迟

DGX-2:1 块 NVIDIA V100-SXM3-32GB,至强金牌 8168 2.7 GHz|TensorRT 6.0|批尺寸 = 1|19.12-py3|精度:INT8|数据集:合成
Supermicro SYS-4029GP-TRT T4:1 块 NVIDIA T4,金牌 6240,2.6 GHz|TensorRT 6.0|批尺寸 = 1|19.12-py3|精度:INT8|数据集:合成




TensorRT
TensorRT

NVIDIA TensorRT 是用于高性能深度学习推理的 SDK 它包括深度学习推理优化器和运行时,可为深度学习推理应用提供低延迟和高吞吐量。

了解详情……

DeepStream SDK
DeepStream SDK

DeepStream SDK 是一款用于多传感器处理、基于 AI 的视频和图像理解的完整串流分析工具包。



了解详情……
NVIDIA Triton Inference Server
NVIDIA Triton 推理服务器

NVIDIA Triton 推理服务器 是一款开源推理服务软件,用于最大化 GPU 利用率,并与 Kubernetes 集成以实现编排、指标和自动扩展。


了解详情……


NVIDIA Riva
NVIDIA Riva

NVIDIA Riva 是一个用于构建和部署融合视觉、语音和其他传感器的 AI 应用的 SDK 它提供了一个完整的工作流程,用于构建、训练和部署 GPU 加速的 AI 系统,这些系统可以在上下文中使用手势、眼神和语音等视觉提示。

了解详情……


NGC 目录中的预训练模型和 DL 软件



NVIDIA Omniverse 平台 NVIDIA ® NGC™ 目录用于深度学习和机器学习的 GPU 优化软件中心。AI 软件每月进行一次更新,可通过容器在工作站、本地服务器、边缘和云中轻松部署。NGC™ 目录还提供预训练模型和模型脚本,开发者可以利用这些模型和脚本快速构建自己的数据集。此外,NGC™ 目录还提供用于构建行业特定 AI 解决方案和 Helm 注册表的 SDK,以便轻松部署软件,从而缩短解决方案构建时间。

NGC™ 目录的目标是让数据科学家和开发者能够轻松访问 AI 软件,从而专注于构建 AI 解决方案。




Deep Learning Software Containers
深度学习软件容器

DL 软件 containers 例如 TensorFlow、PyTorch 和 TensorRT 不断使用高效库进行更新,以提供更好的性能,并且软件每月发布一次。用户只需拉取容器的最新版本,即可在相同硬件上实现更快的训练和推理性能。该软件在单 GPU 和多 GPU 系统、工作站、服务器和云实例上进行了测试,可在各种计算平台上提供一致的体验。

了解详情……

Pre-Trained Models
预训练模型

NVIDIA ® NGC™ 目录提供 预训练模型 用于各种常见的 AI 应用程序,包括文本转语音、自动语音识别和自然语言处理。用户可以使用自己的数据集更快地重新训练 NVIDIA ® NGC™ 目录模型,从而节省宝贵的时间。此外,这些预训练模型具有高准确性,并赢得了 MLPerf 基准测试,可在自定义数据集上进行微调,以实现出色的性能和准确性。


了解详情……

scripts for creating deep learning models
脚本

NVIDIA ® NGC™ 目录提供创建深度学习模型的分步说明和脚本,以及性能和准确性指标,用于比较您的结果。这些脚本采用最佳实践来构建精简且高度准确的模型,同时为您的用例提供自定义模型的灵活性。






了解详情……


开发者和 DevOps 工具



NVIDIA 开发者工具适用于桌面和边缘环境,可为深度学习、机器学习和 HPC 应用程序提供对复杂 CPU-GPU 应用程序的独特见解。这让开发者能够有效构建、调试、分析和优化这些应用程序。 NVIDIA GPU 上的 Kubernetes 使企业能够无缝扩展训练和推理部署到多云 GPU 集群。



NSIGHT 系统

Nsight Systems 是一款系统级性能分析工具,旨在可视化应用程序的算法,帮助您识别最大的优化机会,并调整以在任何量或大小的 CPU 和 GPU 上实现高效扩展。


DLProf

深度学习分析器 (DLProf) 是一款用于可视化 GPU 利用率、Tensor Core 支持的操作和执行期间使用情况的分析工具。





基于 NVIDIA GPU 的 Kubernetes

基于 NVIDIA GPU 的 Kubernetes 使企业能够无缝扩展训练和推理部署到多云 GPU 集群。开发者可以将其 GPU 加速应用程序和依赖项捆绑成一个包,并使用 Kubernetes 进行部署,无论部署环境如何,都可在 NVIDIA GPU 上提供出色的性能。


NSIGHT 计算

Nsight Compute 是一款直接使用 CUDA 构建的交互式内核分析器,适用于深度学习应用程序。它通过 GUI 或命令行界面提供详细的性能指标和 API 调试。Nsight Compute 还提供可定制的数据驱动的用户界面和指标采集,可通过分析脚本扩展后处理结果。

特征地图探索器

特征地图探索器(FME) 允许使用一系列视图 (从低级别的通道可视化到详细的数字信息,涵盖完整的特征图张量和每个通道切片) 可视化基于图像的四维特征图数据。





返回顶部