面向开发者的 NVIDIA NeMo Evaluator

NVIDIA NeMo Evaluator™ 微服务通过易于使用的 API 简化了生成式 AI 应用的端到端评估,包括检索增强生成 (RAG) 和代理式 AI。它提供 LLM 评判功能,以及适用于各种自定义任务和领域 (包括推理、编码和指令遵循) 的全套基准和指标。

您可以将 NeMo Evaluator 无缝集成到您的 CI/ CD 工作流中,并构建用于持续评估的数据飞轮,确保 AI 系统随时间推移保持高准确性。借助 NeMo Evaluator 灵活的云原生架构,您可以将其部署到数据所在的任何位置,无论是本地、私有云还是跨公有云提供商。这有助于轻松设置和启动评估作业,从而加快上市时间,从而提高评估效率。

立即下载阅读文档访问论坛


查看 NVIDIA NeMo Evaluator 的实际应用

观看视频演示了解如何利用 NeMo 微服务自定义和评估用于工具调用的 AI 智能体。您还将学习如何使用 Helm 图表安装微服务,并通过 API 与之交互。


NVIDIA NeMo Evaluator 的工作原理

NeMo Evaluator 提供易于使用的 API,NeMo Evaluator 提供易于使用的 API,可让您评估生成式 AI 模型,包括大语言模型 (LLM),嵌入模型和重新排序模型。只需在 API 负载中提供评估数据集、模型名称和评估类型即可。然后,NeMo Evaluator 将启动评估模型的作业,并以可下载存档的形式提供结果。

以下架构图说明了使用 NeMo Evaluator 评估各种生成式 AI 系统性能的流程。

评估 AI 智能体

NeMo Evaluator 提供了一个自定义指标来评估调用 AI 智能体的工具。使用此指标,您可以评估调用正确函数的智能体是否具有正确的参数。

或者,您还可以使用 LLM 作为评判来评估智能体的输出。

A diagram showing how NeMo Evaluator evaluates the tool calling for AI agents
单击查看大图
A diagram showing how NeMo Evaluator evaluates retrieval-augmented generation pipelines
单击放大

评估 RAG 工作流

对于检索增强生成工作流,您可以通过评估 LLM 生成器、嵌入和重排序模型的准确性指标来逐步进行评估。

NeMo Evaluator 还支持离线评估,只需在 API 负载中提供 RAG 查询、响应和指标即可。

评估自定义模型

要根据企业需求定制模型,请同时使用 NeMo Customizer 和 NeMo Evaluator,并不断改进和测试,直到达到所需的准确性,并评估学术基准,以确保准确性不会回归。

该定制模型可部署为 NVIDIA NIM™ 微服务,以实现更高的吞吐量和更低的延迟。

A diagram showing how NeMo Customizer and NeMo Evaluator evaluate custom models
单击放大

入门资源

入门博客

了解 NeMo Evaluator 如何简化生成式 AI 系统的端到端评估。

阅读博客

教程 Notebook

探索旨在帮助您使用 NeMo Evaluator 微服务评估生成式 AI 模型的教程。

探索教程

入门在线研讨会

了解数据飞轮的架构及其在增强代理式 AI 系统方面的作用,并学习集成 NeMo 组件以优化 AI 智能体性能的最佳实践。

操作方法博客

通过案例研究和端到端工作流中步骤的快速概述,深入了解 NVIDIA NeMo 微服务如何帮助构建数据飞轮。

阅读博客

如何开始使用 NVIDIA NeMo Evaluator

使用合适的工具和技术,在任何平台上跨学术和自定义基准评估生成式 AI 模型和流程。

开发

免费访问 NeMo Evaluator 微服务进行研究、开发和测试。

立即下载
Buiild icon

构建

使用 NVIDIA AI Blueprint 快速构建您的 AI 解决方案。

试用 Blueprint

部署

获取使用现有基础架构在生产环境中试用 NVIDIA AI Enterprise 90 天的免费许可。

申请 90 天许可证

性能

NeMo 微服务提供简单的 API 来启动自定义和评估作业。对于端到端自定义作业,NeMo 微服务只需要 5 次调用,而使用其他库时则需要 21 个步骤。

使用 NeMo Evaluator 简化生成式 AI 应用评估

该基准表示使用 NeMo 微服务和领先的开源替代库对定制作业进行端到端评估的步骤数。

A chart showing simplified generative AI application evaluation with NeMo Evaluator

入门套件

使用 NeMo Evaluator 的以下功能开始评估您的生成式 AI 应用。

LLM-as-a-Judge

当传统评估方法因主观性而不切实际时,就会使用 LLM-as-a-Judge。它有助于评估开放式响应、比较模型输出、自动执行类似人类的判断,以及评估 RAG 或基于智能体的系统。

当没有单一正确答案时,此方法非常有用,可确保结构化评分和一致性。LLM-as-a-Judge 判涵盖广泛的场景,包括模型评估 ( MT-Bench) 、RAG 以及智能体。

相似性指标

NeMo Evaluator 支持根据企业要求评估自定义数据集。这些评估使用 F1-score 和 ROUGE score 等相似性指标来衡量 LLM 或检索模型处理特定领域查询的效果。

相似性指标可帮助企业确定模型是否能够可靠地回答用户问题,并在不同的场景中保持一致性。

学术基准测试

模型发行商广泛使用学术基准来评估各种任务和领域的性能。

这些基准测试,如 MMLU (用于知识) 、HellaSwag (用于推理) 和 GSM8K (用于数学) ,提供了一种标准化的方式来比较不同维度的模型。借助 NeMo Evaluator,模型开发者可以在自定义后快速检查回归。


NVIDIA NeMo Evaluator 学习资源库


更多资源

探索社区

获取培训和认证

了解面向初创公司的计划

道德 AI

NVIDIA 认为值得信赖的 AI 是一项共同责任,我们已制定相关政策和实践,以支持各种 AI 应用的开发。根据我们的服务条款下载或使用时,开发者应与其内部模型团队合作,确保此模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。请报告安全漏洞或 NVIDIA AI 问题单击此处

立即开始使用 NeMo Evaluator。

立即下载