面向开发者的 NVIDIA NIM
NVIDIA NIM™ 是 NVIDIA AI Enterprise 的一部分,为跨云、数据中心和工作站的自托管 GPU 加速推理微服务提供容器,用于预训练和自定义 AI 模型。使用单个命令部署后,NIM 微服务会公开行业标准 API,以便轻松集成到 AI 应用程序、开发框架和工作流程中。NIM 微服务基于 NVIDIA 和社区的预优化推理引擎 (包括 NVIDIA® TensorRT™ 和 TensorRT-LLM) 构建,可自动优化运行时检测到的基础模型和 GPU 系统的每个组合的响应延迟和吞吐量。NIM 容器还提供标准的可观察性数据源,并内置支持在 GPU 上的 Kubernetes 上自动扩展。
工作原理
NVIDIA NIM 有助于克服构建 AI 应用程序的挑战,为开发者提供行业标准 API,用于构建功能强大的 Copilot、聊天机器人和 AI 助手,同时使 IT 和 DevOps 团队能够轻松地在自己的托管环境中自行托管 AI 模型。NIM 基于可靠的基础构建,包括 TensorRT、TensorRT-LLM 和 PyTorch 等推理引擎,旨在促进大规模无缝 AI 推理。
博客
了解 NIM 的架构、主要特性和组件。
文档
访问指南、API 参考信息和版本说明。
网络会议
了解如何使用单个命令在基础架构上部署 NIM。
部署指南
获取在任何 NVIDIA 加速基础架构上自行托管 NIM 的分步说明。
使用 NVIDIA NIM 构建
获得出色的模型性能
借助 NVIDIA 和社区的加速引擎 (包括 TensorRT、TensorRT-LLM 等) 提高 AI 应用程序的性能和效率,这些引擎针对特定 NVIDIA GPU 系统上的低延迟、高吞吐量推理进行了预构建和优化。
随时随地运行 AI 模型
借助可部署在任何位置 (工作站、数据中心或云) 的 NVIDIA GPU 上的预构建微服务,保持应用程序和数据的安全性和控制力。下载用于自托管部署的 NIM 推理微服务,或利用 Hugging Face 上的专用端点在您首选的云中启动实例。
为您的用例自定义 AI 模型
通过部署 NIM 推理微服务,针对使用自己的数据进行微调的模型,提高特定用例的准确性。
更大限度地提高可操作性和规模
获取用于控制面板的详细可观察性指标,并访问 Helm 图表和在 Kubernetes 上扩展 NIM 的指南。
NVIDIA NIM 示例
使用标准 API 构建 RAG 应用
开始使用 NVIDIA API 目录中托管的 NIM 对您的 AI 应用程序进行原型设计。使用 GitHub 中的生成式 AI 示例,了解如何使用托管端点轻松部署检索增强生成 (RAG) 工作流,以进行聊天问答。开发者可以免费获得任何可用模型的 1000 个推理积分,以开始开发其应用程序。
自托管 AI 模型即服务
使用单个优化容器,您可以在不到 5 分钟的时间内轻松地在云端、数据中心或工作站和 PC 上的加速 NVIDIA GPU 系统上部署 NIM。按照这些简单的说明部署 NIM 容器,并使用领先开发者工具中的连接器构建应用程序。
通过 Hugging Face 在云端部署 NIM
借助 NIM 在 Hugging Face 上简化和加速生成式 AI 模型的部署。只需单击几下,即可在首选云平台上部署优化模型 (例如 Llama 3)。
开始使用 NVIDIA NIM
我们为您提供不同的选项,借助 NVIDIA NIM 使用最新的 AI 模型构建和部署优化的 AI 应用。
NVIDIA NIM 学习库
更多资源
伦理 AI
NVIDIA 的平台和应用程序框架使开发者能够构建各种 AI 应用程序。在选择或创建部署的模型时,请考虑算法偏差的潜在影响。与模型的开发者合作,确保模型符合相关行业和用例的要求;提供必要的指令和文档,以便了解错误率、置信区间和结果;并确保模型按照预期的条件和方式使用。
了解最新的 NVIDIA NIM 模型、应用程序和工具。