面向开发者的 NVIDIA NeMo Evaluator

NVIDIA NeMo™ Evaluator 是一个可扩展的评估解决方案，用于评估生成式 AI 应用——包括大型语言模型 (LLM)、检索增强生成 (RAG) 流程和 AI 智能体。它既可作为用于实验的开源 SDK，也可作为适用于自动化、企业级工作流程的云原生微服务。NeMo Evaluator SDK 支持超过 100 个内置学术基准测试，并通过开源贡献提供了便捷的自定义指标添加流程。除学术基准外，NeMo Evaluator 微服务还提供基于 LLM 的评审评分、RAG 和智能体指标，帮助用户在不同环境中轻松评估和优化模型性能。NeMo Evaluator 是 NVIDIA NeMo™ 软件套件的一部分，该套件用于在企业级规模下构建、监控和优化 AI 智能体的全生命周期。

访问 SDK 快速入门下载微服务文档

NVIDIA NeMo Evaluator 的主要特性

NeMo Evaluator 基于同一核心引擎构建，该引擎同时驱动开源 SDK 和企业级微服务。

SDK

一个开源 SDK，可用于以可复现性和可扩展性运行学术基准测试。该 SDK 基于 nemo-evaluator core and launcher 构建，为大型语言模型 (LLM)、嵌入模型和重排序模型的实验提供原生代码访问能力。

默认可复制：捕获配置、种子和软件出处，以获得可审计、可重复的结果。
完整的基准测试：涵盖主流评测框架和多种模态的 100 多项学术基准测试，并持续更新。
Python 原生且随时可运行：配置和容器直接在 notebook 或脚本中提供结果。
灵活且可扩展：使用 Docker 在本地运行或横向扩展至 Slurm 集群。

微服务

企业级云原生 REST API，可自动执行可扩展的评估流程。团队可以集中提交作业、配置参数并监控结果，非常适合 CI/ CD 集成和生产就绪型生成式 AI 运营工作流。

使用简单的 REST API 自动执行可扩展的评估流程。
抽象复杂性：集中提交“作业”、配置参数并监控结果。

试用微服务

NVIDIA NeMo 微服务评估器的工作原理

NeMo Evaluator 微服务允许用户通过 REST API 运行代理式 AI 应用的各种评估作业。启用的评估流程包括：学术基准测试、代理和 RAG 指标，以及 LLM 即评判。用户还可以通过提示优化功能调整其判断模型。

Diagram of how NeMo evaluator works

入门资源

入门博客

了解 NeMo Evaluator 微服务如何简化生成式 AI 系统的端到端评估。

教程笔记本

探索旨在帮助您使用 NeMo Evaluator 微服务评估生成式 AI 模型的教程。

入门网络研讨会

了解数据飞轮的架构及其在增强代理式 AI 系统方面的作用，并学习集成 NeMo 组件以优化 AI 智能体性能的最佳实践。

操作方法博客

通过案例研究和端到端工作流中步骤的快速概述，深入了解 NVIDIA NeMo 微服务如何帮助构建数据飞轮。

如何开始使用 NVIDIA NeMo Evaluator

使用合适的工具和技术，在任何平台上跨学术和自定义 LLM 基准评估生成式 AI 模型和流程。

下载

免费访问 NeMo Evaluator 微服务进行研究、开发和测试。

下载微服务

访问权限

免费访问 NeMo Evaluator 微服务进行研究、开发和测试。

试用

借助 NVIDIA AI Blueprint (可定制的参考应用，可在 NVIDIA API Catalog 上获取) 快速构建 AI 解决方案。

试用 Blueprint

查看 NVIDIA NeMo Evaluator 微服务的实际应用

观看这些演示，了解 NeMo Evaluator 微服务如何简化 AI 智能体、RAG 和 LLM 的评估和优化。

使用 NeMo Evaluator 和 Docker Compose 评估 LLM

本分步指南将介绍如何使用 Docker Compose 部署 NeMo Evaluator 微服务并运行自定义评估。

使用 NeMo Evaluator LLM-as-a -Judge 扩展 AI 智能体评估

在此分步教程中，您将了解如何使用 NeMo Evaluator LLM-as-a -judge 扩展 AI 智能体评估工作流程。

设置数据飞轮以优化 AI 模型和智能体

概述数据飞轮蓝图，了解如何进行模型评估和成本优化，探索评估报告等。

使用 NeMo 微服务定制用于工具调用的 AI 智能体

通过 NeMo 微服务的端到端示例，了解如何自定义 AI 智能体以进行精确的函数调用。

入门套件

LLM 评审

自动对开放式响应、RAG 系统或 AI 智能体进行主观评估。确保结构化评分和一致性。

相似性指标

使用 F1、ROUGE 或其他指标衡量 LLM 或检索模型处理特定领域查询的效果。

智能体评估

评估智能体是否使用正确的参数调用正确的函数；与 CI/ CD 流程集成。

LLM 基准测试

跨推理、数学、编码和指令遵循的模型性能的标准化评估。支持回归测试。

NVIDIA NeMo Evaluator 学习资源库

更多资源

探索社区

获取培训和认证

了解面向初创公司的计划

AI 伦理

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持开发各种 AI 应用。根据我们的服务条款下载或使用时，开发者应与其内部模型团队合作，确保此模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。请单击此处报告安全漏洞或 NVIDIA AI 问题。

立即开始使用 NeMo Evaluator。