借助 NVIDIA RTX PC 加速 AI 发展
NVIDIA RTX™ PC 可加速您的 AI 功能,实现更高性能和更低延迟。NVIDIA 为所有主流 AI 推理后端提供广泛支持,以满足每位开发者的需求。
AI 推理后端概述
开发者在为其应用选择部署生态系统和路径之前,需要考虑多个因素。每种推理后端都提供特定的模型优化工具和部署机制,以实现高效的应用集成。推理后端将模型执行映射到硬件,其中最常用选项针对 NVIDIA RTX GPU 进行了优化。要实现 AI 的最佳性能,需要采用诸如量化和剪枝等模型优化技术。更高级别的接口简化了应用的打包、安装和集成,从而提高了效率。
面向哪些人?
适合希望在 Windows 操作系统中部署高性能、跨供应商应用的开发者。
推理后端
ONNX Runtime 与 DirectML 后端相结合,是适用于 Windows 的跨平台机器学习模型加速器,允许访问特定于硬件的优化。
适用于 AI 模型 – 开始使用 DirectML AI 推理 适用于生成式 AI - 开始使用 ONNX 运行时生成式 AI 推理模型优化
Olive 优化工具包提供跨 CPU、NPU 和 NVIDIA RTX GPU 的量化,并轻松集成到 ONNX-Runtime 和 DirectML 推理后端。您还可以使用 TensorRT Model Optimizer 为 ONNX 模型执行量化。
开始使用 Olive 开始使用 TensorRT 模型优化器部署机制
在 PC 上打包和部署 ONNX Runtime 应用非常简单。DirectML 预安装在 Windows 中。您只需发布模型,并针对 LLM 发布 ONNX Runtime GenAI SDK。
开始使用端到端示例ONNX 运行时简介
观看视频 (8:12)
ONNX 运行时生成式 AI 安装和推理逐步演示
观看视频 (6:00)面向哪些人?
适合需要获得跨供应商和跨操作系统支持的广泛覆盖范围的 LLM 开发者。
推理后端
Llama.cpp 通过统一的 API 在各种设备和平台上实现仅适用于 LLM 的推理。这只需要很少的设置,可提供良好的性能,并且是一个轻量级的软件包。Llama.cpp 由大型开源社区开发和维护,并提供各种 LLM 支持。
Llama.cpp 入门模型优化
Llama.cpp 以原生方式通过 GGUF 提供优化的模型格式。这种格式可实现出色的模型性能和轻量级部署。它使用量化技术减少模型的大小和计算需求,以便在各种平台上运行。
Llama.cpp 模型量化入门部署机制
借助 Llama.cpp,您可以在本地主机上运行服务器,以进程外格式进行部署。应用使用 REST API 与此服务器进行通信。一些热门工具包括 Cortex,Ollama和 LMStudio。对于进程内执行,需要在应用中以 .lib 或 .dll 格式安装 Llama.cpp。
开始使用 Ollama 开始使用 LMStudioCortex 入门 开始使用过程执行
面向哪些人?
适合希望在 NVIDIA RTX GPU 上获得新功能和更高性能的开发者。
推理后端
NVIDIA® TensorRT™ 可在 NVIDIA RTX GPU 上提供更高性能的深度学习推理,而 GPU 特定的 TRT 引擎可将 GPU 性能发挥到极致。
优化模型
要优化 TensorRT 生态系统中的模型,开发者可以使用 TensorRT-Model Optimizer。此统一库提供先进的模型优化技术,例如量化、剪枝和蒸馏。它可以在 NVIDIA GPU 上为下游部署框架压缩深度学习模型,如 TensorRT 以优化推理速度。
开始使用 TensorRT 模型优化器部署机制
部署 TensorRT 模型需要 3 项功能:TensorRT、TensorRT 优化模型和 TensorRT 引擎。
TensorRT 引擎可以提前预先生成,也可以使用定时缓存在您的应用中生成。
适合哪些人?
适合希望尝试和评估 AI 的开发者,同时保持与模型训练流程的一致性。
部署机制
为了在 PyTorch 中的生产应用中提供模型,开发者通常使用进程外格式进行部署。这需要构建 python 软件包、生成模型文件并设置本地主机服务器。这可以通过 tocrchserve 和 HuggingFace Accelerate 等框架进行简化。
TorchServe 入门 开始使用 HuggingFace Accelerate选择推理后端
使用 DirectML 的 ONNX 运行时 |
TensorRT 和 TensorRT-LLM |
Llama.cpp |
PyTorch-CUDA |
|
|---|---|---|---|---|
性能 |
速度更快 |
速度最快 |
快速 |
良好 |
操作系统支持 |
Windows |
Windows 和 Linux (TensortRT-LLM 仅适用于 Linux) |
Windows、Linux 和 Mac |
Windows 和 Linux |
硬件支持 |
任何 GPU 或 CPU |
NVIDIA RTX GPU |
任何 GPU 或 CPU |
任何 GPU 或 CPU |
模型检查点格式 |
ONNX |
TRT |
GGUF 或 GGML |
PyT |
安装流程 |
Windows 预安装 |
需要安装 Python 软件包 |
需要安装 Python 软件包 |
需要安装 Python 软件包 |
LLM 支持 |
✔️ |
✔️ |
✔️ |
✔️ |
CNN 支持 |
✔️ |
✔️ |
- |
✔️ |
特定于设备的优化 |
Microsoft Olive |
TensorRT 模型优化器 |
Llama.cpp |
- |
Python |
✔️ |
✔️ |
✔️ |
✔️ |
C/C++ |
✔️ |
✔️ |
✔️ |
✔️ |
C#/.NET |
✔️ |
- |
✔️ |
- |
Javascript |
✔️ |
- |
✔️ |
- |
近期 NVIDIA 新闻
及时了解如何使用 NVIDIA RTX PC 为您的 AI 应用提供支持。