深度学习软件
NVIDIA CUDA-X AI是一个完整的深度学习软件堆栈让研究人员和软件开发者能够构建高性能 GPU 加速应用程序,对话式 AI 推荐系统和计算机视觉 CUDA-X AI 库可在各行业基准测试 (如 MLPerf) 中提供出色的训练和推理性能。
各种深度学习框架,包括 PyTorch, TensorFlow 和 JAX 在单个 GPU 上加速,并且可以扩展到多 GPU 和多节点配置。框架开发者和研究人员使用 GPU 优化的 CUDA-X AI 库的灵活性来加速新框架和模型架构。
基于 CUDA-X 构建NVIDIA 的统一编程模型提供了在桌面或数据中心开发深度学习应用程序的方法,并将其部署到数据中心、资源受限的物联网设备以及具有较少或无代码更改的汽车平台。
NVIDIA Omniverse 平台 NVIDIA ® NGC™ 目录 提供
有超过 100 个 NVIDIA Github 涵盖产品、演示、样本和教程,助您快速入门。
与各种框架集成
深度学习框架通过高级编程接口为设计、训练和验证深度神经网络提供构建块。广泛使用的深度学习框架,如 PyTorch, TensorFlow 和 JAX 依靠 GPU 加速库 (如 cuDNN 和 TensorRT) 提供高性能 GPU 加速训练和推理。
您可以在 NGC 中的容器化框架 并集成了 CUDA 库和驱动程序的最新 GPU 优化。容器化框架已通过月度发布进行验证和测试,可在多个边缘和云平台中提供出色的性能。如需详细了解与框架、资源和示例的集成,请访问 深度学习框架页面。

深度学习训练
CUDA-X AI 库可在各种框架中加速深度学习训练,通过高性能优化在各种应用 (如对话式 AI, 自然语言理解, 推荐系统和计算机视觉。最新的 GPU 性能始终可用于 深度学习训练性能页面。
借助 GPU 加速框架,您可以利用 Tensor Core 上的混合精度计算等优化,加速各种模型,并轻松将训练作业从单个 GPU 扩展到包含数千个 GPU 的 DGX SuperPods。
随着深度学习在语言理解和对话式 AI 等复杂任务中的应用,模型的规模和训练所需的计算资源呈爆炸式增长。一种常见的方法是从一个基于通用数据集预训练的模型开始,然后针对特定行业、领域和用例进行微调。 NVIDIA AI 工具套件提供库和工具,可从预训练模型开始,执行迁移学习和微调,以便您更大限度地提高 AI 应用程序的性能和准确性。

深度学习推理
CUDA-X AI 包括高性能深度学习推理 SDK,大幅降低延迟和更大限度地提高吞吐量用于各种应用程序,例如计算机视觉, 对话式 AI和推荐系统几秒钟的时间生产环境。与仅使用 CPU 的平台相比,使用 NVIDIA 推理 SDK 开发的应用可在 GPU 上提供高达 40 倍的推理性能。
NVIDIA 的 CUDA-X 推理解决方案基于 CUDA 统一平台构建,可以轻松地在桌面上使用任何框架开发模型,并在数据中心和边缘部署该模型进行推理。
对话式 AI 和推荐系统应用程序管线可为单个客户查询执行 20-30 个具有数百万参数的模型。应用程序的响应速度需要在 300 毫秒内完成整个工作流程,因此对每个模型都提出了非常严格的延迟要求。使用高性能优化和较低精度推理 (FP16 和 INT8)您可以获得显著提升性能比其他平台更快。
最新的 GPU 性能始终可用于 深度学习推理性能页面。
使用 TensorRT 在 CNN 上进行推理图像分类
ResNet-50 v1.5 吞吐量
DGX-1:1 块 NVIDIA V100-SXM2-16GB,E5-2698 v4 2.2 GHz|TensorRT 6.0|批尺寸 = 128|19.12-py3|精度:混合|数据集:合成
Supermicro SYS-4029GP-TRT T4:1 块 NVIDIA T4,金牌 6240,2.6 GHz|TensorRT 6.0|批尺寸 = 128|19.12-py3|精度:INT8|数据集:合成
ResNet-50 v1.5 延迟
DGX-2:1 块 NVIDIA V100-SXM3-32GB,至强金牌 8168 2.7 GHz|TensorRT 6.0|批尺寸 = 1|19.12-py3|精度:INT8|数据集:合成
Supermicro SYS-4029GP-TRT T4:1 块 NVIDIA T4,金牌 6240,2.6 GHz|TensorRT 6.0|批尺寸 = 1|19.12-py3|精度:INT8|数据集:合成


NVIDIA Riva 是一个用于构建和部署融合视觉、语音和其他传感器的 AI 应用的 SDK 它提供了一个完整的工作流程,用于构建、训练和部署 GPU 加速的 AI 系统,这些系统可以在上下文中使用手势、眼神和语音等视觉提示。
了解详情……NGC 目录中的预训练模型和 DL 软件
NVIDIA Omniverse 平台 NVIDIA ® NGC™ 目录 是用于深度学习和机器学习的 GPU 优化软件中心。AI 软件每月进行一次更新,可通过容器在工作站、本地服务器、边缘和云中轻松部署。NGC™ 目录还提供预训练模型和模型脚本,开发者可以利用这些模型和脚本快速构建自己的数据集。此外,NGC™ 目录还提供用于构建行业特定 AI 解决方案和 Helm 注册表的 SDK,以便轻松部署软件,从而缩短解决方案构建时间。
NGC™ 目录的目标是让数据科学家和开发者能够轻松访问 AI 软件,从而专注于构建 AI 解决方案。

DL 软件 containers 例如 TensorFlow、PyTorch 和 TensorRT 不断使用高效库进行更新,以提供更好的性能,并且软件每月发布一次。用户只需拉取容器的最新版本,即可在相同硬件上实现更快的训练和推理性能。该软件在单 GPU 和多 GPU 系统、工作站、服务器和云实例上进行了测试,可在各种计算平台上提供一致的体验。
了解详情……
NVIDIA ® NGC™ 目录提供创建深度学习模型的分步说明和脚本,以及性能和准确性指标,用于比较您的结果。这些脚本采用最佳实践来构建精简且高度准确的模型,同时为您的用例提供自定义模型的灵活性。
了解详情……
开发者和 DevOps 工具
NVIDIA 开发者工具适用于桌面和边缘环境,可为深度学习、机器学习和 HPC 应用程序提供对复杂 CPU-GPU 应用程序的独特见解。这让开发者能够有效构建、调试、分析和优化这些应用程序。 NVIDIA GPU 上的 Kubernetes 使企业能够无缝扩展训练和推理部署到多云 GPU 集群。
Nsight Systems 是一款系统级性能分析工具,旨在可视化应用程序的算法,帮助您识别最大的优化机会,并调整以在任何量或大小的 CPU 和 GPU 上实现高效扩展。
深度学习分析器 (DLProf) 是一款用于可视化 GPU 利用率、Tensor Core 支持的操作和执行期间使用情况的分析工具。
基于 NVIDIA GPU 的 Kubernetes 使企业能够无缝扩展训练和推理部署到多云 GPU 集群。开发者可以将其 GPU 加速应用程序和依赖项捆绑成一个包,并使用 Kubernetes 进行部署,无论部署环境如何,都可在 NVIDIA GPU 上提供出色的性能。
Nsight Compute 是一款直接使用 CUDA 构建的交互式内核分析器,适用于深度学习应用程序。它通过 GUI 或命令行界面提供详细的性能指标和 API 调试。Nsight Compute 还提供可定制的数据驱动的用户界面和指标采集,可通过分析脚本扩展后处理结果。