借助 NVIDIA RTX PC 加速 AI 发展

NVIDIA RTX™ PC 可加速您的 AI 功能,实现更高性能和更低延迟。NVIDIA 为所有主流 AI 推理后端提供广泛支持,以满足每位开发者的需求。


AI 推理后端概述

开发者在为其应用选择部署生态系统和路径之前,需要考虑多个因素。每种推理后端都提供特定的模型优化工具和部署机制,以实现高效的应用集成。推理后端将模型执行映射到硬件,其中最常用选项针对 NVIDIA RTX GPU 进行了优化。要实现 AI 的最佳性能,需要采用诸如量化和剪枝等模型优化技术。更高级别的接口简化了应用的打包、安装和集成,从而提高了效率。

面向哪些人?

适合希望在 Windows 操作系统中部署高性能跨供应商应用的开发者。

推理后端

ONNX Runtime 与 DirectML 后端相结合,是适用于 Windows 的跨平台机器学习模型加速器,允许访问特定于硬件的优化。

适用于 AI 模型 – 开始使用 DirectML AI 推理
适用于生成式 AI - 开始使用 ONNX 运行时生成式 AI 推理

模型优化

Olive 优化工具包提供跨 CPU、NPU 和 NVIDIA RTX GPU 的量化,并轻松集成到 ONNX-Runtime 和 DirectML 推理后端。您还可以使用 TensorRT Model Optimizer 为 ONNX 模型执行量化。

开始使用 Olive
开始使用 TensorRT 模型优化器

部署机制

在 PC 上打包和部署 ONNX Runtime 应用非常简单。DirectML 预安装在 Windows 中。您只需发布模型,并针对 LLM 发布 ONNX Runtime GenAI SDK。

开始使用端到端示例

ONNX 运行时简介

观看视频 (8:12)

ONNX 运行时生成式 AI 安装和推理逐步演示

观看视频 (6:00)

面向哪些人?

适合需要获得跨供应商和跨操作系统支持的广泛覆盖范围的 LLM 开发者。

推理后端

Llama.cpp 通过统一的 API 在各种设备和平台上实现仅适用于 LLM 的推理。这只需要很少的设置,可提供良好的性能,并且是一个轻量级的软件包。Llama.cpp 由大型开源社区开发和维护,并提供各种 LLM 支持。

Llama.cpp 入门

模型优化

Llama.cpp 以原生方式通过 GGUF 提供优化的模型格式。这种格式可实现出色的模型性能和轻量级部署。它使用量化技术减少模型的大小和计算需求,以便在各种平台上运行。

Llama.cpp 模型量化入门

部署机制

借助 Llama.cpp,您可以在本地主机上运行服务器,以进程外格式进行部署。应用使用 REST API 与此服务器进行通信。一些热门工具包括 CortexOllama和 LMStudio。对于进程内执行,需要在应用中以 .lib 或 .dll 格式安装 Llama.cpp。

开始使用 Ollama
开始使用 LMStudio

Cortex 入门
开始使用过程执行

面向哪些人?

适合希望在 NVIDIA RTX GPU 上获得新功能和更高性能的开发者。

推理后端

NVIDIA® TensorRT™ 可在 NVIDIA RTX GPU 上提供更高性能的深度学习推理,而 GPU 特定的 TRT 引擎可将 GPU 性能发挥到极致。

TensorRT 入门
开始使用 TensorRT-LLM

优化模型

要优化 TensorRT 生态系统中的模型,开发者可以使用 TensorRT-Model Optimizer。此统一库提供先进的模型优化技术,例如量化、剪枝和蒸馏。它可以在 NVIDIA GPU 上为下游部署框架压缩深度学习模型,如 TensorRT 以优化推理速度。

开始使用 TensorRT 模型优化器

部署机制

部署 TensorRT 模型需要 3 项功能:TensorRT、TensorRT 优化模型和 TensorRT 引擎。
TensorRT 引擎可以提前预先生成,也可以使用定时缓存在您的应用中生成。

开始部署 NVIDIA TensorRT

适合哪些人?

适合希望尝试和评估 AI 的开发者,同时保持与模型训练流程的一致性。

推理后端

PyTorch 是一个热门的开源机器学习库,提供跨平台和跨设备推理选项。

开始使用 PyTorch

模型优化

PyTorch 为模型量化提供了几种领先的算法,包括量化感知训练 (QAT)、训练后量化 (PTQ),以及用于框架内模型优化的稀疏算法。

Torchao 入门

部署机制

为了在 PyTorch 中的生产应用中提供模型,开发者通常使用进程外格式进行部署。这需要构建 python 软件包、生成模型文件并设置本地主机服务器。这可以通过 tocrchserve 和 HuggingFace Accelerate 等框架进行简化。

TorchServe 入门
开始使用 HuggingFace Accelerate

选择推理后端

使用 DirectML 的 ONNX 运行时
TensorRT 和 TensorRT-LLM
Llama.cpp
PyTorch-CUDA
性能
速度更快
速度最快
快速
良好
操作系统支持
Windows
Windows 和 Linux
(TensortRT-LLM 仅适用于 Linux)
Windows、Linux 和 Mac
Windows 和 Linux
硬件支持
任何 GPU 或 CPU
NVIDIA RTX GPU
任何 GPU 或 CPU
任何 GPU 或 CPU
模型检查点格式
ONNX
TRT
GGUF 或 GGML
PyT
安装流程
Windows 预安装
需要安装 Python 软件包
需要安装 Python 软件包
需要安装 Python 软件包
LLM 支持
✔️
✔️
✔️
✔️
CNN 支持
✔️
✔️
-
✔️
特定于设备的优化
Microsoft Olive
TensorRT 模型优化器
Llama.cpp
-
Python
✔️
✔️
✔️
✔️
C/C++
✔️
✔️
✔️
✔️
C#/.NET
✔️
-
✔️
-
Javascript
✔️
-
✔️
-

近期 NVIDIA 新闻


及时了解如何使用 NVIDIA RTX PC 为您的 AI 应用提供支持。

了解详情