借助 NVIDIA RTX PC 加速 AI 发展
NVIDIA RTX™ PC 可加速您的 AI 功能,实现更高性能和更低延迟。NVIDIA 为所有主流 AI 推理后端提供广泛支持,以满足每位开发者的需求。
AI 推理后端概述
开发者在为其应用选择部署生态系统和路径之前,需要考虑多个因素。每种推理后端都提供特定的模型优化工具和部署机制,以实现高效的应用集成。推理后端将模型执行映射到硬件,其中最常用选项针对 NVIDIA RTX GPU 进行了优化。要实现 AI 的最佳性能,需要采用诸如量化和剪枝等模型优化技术。更高级别的接口简化了应用的打包、安装和集成,从而提高了效率。
面向哪些人?
适合希望在 Windows 操作系统中部署高性能、跨供应商应用的开发者。
推理后端
ONNX Runtime 与 DirectML 后端相结合,是适用于 Windows 的跨平台机器学习模型加速器,允许访问特定于硬件的优化。
适用于 AI 模型 – 开始使用 DirectML AI 推理适用于生成式 AI - 开始使用 ONNX 运行时生成式 AI 推理模型优化
Olive 优化工具包提供跨 CPU、NPU 和 NVIDIA RTX GPU 的量化,并轻松集成到 ONNX-Runtime 和 DirectML 推理后端。您还可以使用 TensorRT Model Optimizer 为 ONNX 模型执行量化。
开始使用 Olive开始使用 TensorRT 模型优化器部署机制
在 PC 上打包和部署 ONNX Runtime 应用非常简单。DirectML 预安装在 Windows 中。您只需发布模型,并针对 LLM 发布 ONNX Runtime GenAI SDK。
开始使用端到端示例ONNX 运行时简介
观看视频 (8:12)ONNX 运行时生成式 AI 安装和推理逐步演示
观看视频 (6:00)面向哪些人?
适合需要获得跨供应商和跨操作系统支持的广泛覆盖范围的 LLM 开发者。
推理后端
Llama.cpp 通过统一的 API 在各种设备和平台上实现仅适用于 LLM 的推理。这只需要很少的设置,可提供良好的性能,并且是一个轻量级的软件包。Llama.cpp 由大型开源社区开发和维护,并提供各种 LLM 支持。
Llama.cpp 入门模型优化
Llama.cpp 以原生方式通过 GGUF 提供优化的模型格式。这种格式可实现出色的模型性能和轻量级部署。它使用量化技术减少模型的大小和计算需求,以便在各种平台上运行。
Llama.cpp 模型量化入门部署机制
借助 Llama.cpp,您可以在本地主机上运行服务器,以进程外格式进行部署。应用使用 REST API 与此服务器进行通信。一些热门工具包括 Cortex,Ollama和 LMStudio。对于进程内执行,需要在应用中以 .lib 或 .dll 格式安装 Llama.cpp。
开始使用 Ollama开始使用 LMStudioCortex 入门开始使用过程执行
面向哪些人?
适合希望在 NVIDIA RTX GPU 上获得新功能和更高性能的开发者。
推理后端
NVIDIA® TensorRT™ 可在 NVIDIA RTX GPU 上提供更高性能的深度学习推理,而 GPU 特定的 TRT 引擎可将 GPU 性能发挥到极致。
优化模型
要优化 TensorRT 生态系统中的模型,开发者可以使用 TensorRT-Model Optimizer。此统一库提供先进的模型优化技术,例如量化、剪枝和蒸馏。它可以在 NVIDIA GPU 上为下游部署框架压缩深度学习模型,如 TensorRT 以优化推理速度。
开始使用 TensorRT 模型优化器部署机制
部署 TensorRT 模型需要 3 项功能:TensorRT、TensorRT 优化模型和 TensorRT 引擎。
TensorRT 引擎可以提前预先生成,也可以使用定时缓存在您的应用中生成。
适合哪些人?
适合希望尝试和评估 AI 的开发者,同时保持与模型训练流程的一致性。
部署机制
为了在 PyTorch 中的生产应用中提供模型,开发者通常使用进程外格式进行部署。这需要构建 python 软件包、生成模型文件并设置本地主机服务器。这可以通过 tocrchserve 和 HuggingFace Accelerate 等框架进行简化。
TorchServe 入门开始使用 HuggingFace Accelerate选择推理后端
使用 DirectML 的 ONNX 运行时 | TensorRT 和 TensorRT-LLM | Llama.cpp | PyTorch-CUDA | |
---|---|---|---|---|
性能 | 速度更快 | 速度最快 | 快速 | 良好 |
操作系统支持 | Windows | Windows 和 Linux (TensortRT-LLM 仅适用于 Linux) | Windows、Linux 和 Mac | Windows 和 Linux |
硬件支持 | 任何 GPU 或 CPU | NVIDIA RTX GPU | 任何 GPU 或 CPU | 任何 GPU 或 CPU |
模型检查点格式 | ONNX | TRT | GGUF 或 GGML | PyT |
安装流程 | Windows 预安装 | 需要安装 Python 软件包 | 需要安装 Python 软件包 | 需要安装 Python 软件包 |
LLM 支持 | ✔️ | ✔️ | ✔️ | ✔️ |
CNN 支持 | ✔️ | ✔️ | - | ✔️ |
特定于设备的优化 | Microsoft Olive | TensorRT 模型优化器 | Llama.cpp | - |
Python | ✔️ | ✔️ | ✔️ | ✔️ |
C/C++ | ✔️ | ✔️ | ✔️ | ✔️ |
C#/.NET | ✔️ | - | ✔️ | - |
Javascript | ✔️ | - | ✔️ | - |
近期 NVIDIA 新闻
及时了解如何使用 NVIDIA RTX PC 为您的 AI 应用提供支持。