评估大语言模型(LLMs) 和 检索增强生成(RAG) 系统是一个复杂而微妙的过程,反映了这些系统的复杂性和多面性。 与传统机器学习(ML) 模型不同,LLMs 会生成各种不同且往往不可预测的输出,因此无法满足标准评估指标的需求。
主要挑战包括许多任务缺乏确定的真值、数据污染的风险,以及模型对提示变化和解码策略的敏感度。此外,LLMs 通常会生成高质量的输出,甚至可以超越低质量的人类引用,从而无法满足基于引用的传统指标的需求。
在本文中,我们将探讨用于评估 LLMs 和 RAG 系统准确性和可靠性的可靠评估技术和最佳实践。
LLM 评估为何重要
在 生成式 AI 应用的开发过程中,严格的评估对于确保系统有效性和可靠性至关重要。此过程具有多个关键功能,包括通过确认 AI 符合预期并提供有意义的交互来验证用户满意度。评估还可确保输出一致性,验证生成的内容在逻辑上是否一致且符合上下文。通过根据现有基准对性能进行基准测试,它可以清晰地衡量进度和竞争定位。
重要的是,评估通过识别偏差、毒性或其他有害输出结果来帮助检测和减轻风险,促进合乎道德的 AI 实践。它还通过确定优缺点、告知有针对性的改进和开发优先级来指导未来的改进。最后,评估评估实际应用情况,确定模型在实际场景中的部署准备情况。
LLM 评估面临的挑战
为生成式 AI 应用设计可靠的评估流程需要应对一系列复杂的挑战。这些挑战大致可分为两大类:确保评估结果的可靠性,以及将评估过程集成到更大的 AI 工作流中。
确保可靠的评估结果
有效的评估必须对模型的性能提供可靠的见解,而以下因素使得性能变得复杂:
- Data availability
- 特定领域的差距:缺乏针对特定领域的定制基准限制了评估的相关性和深度,给评估实际应用带来了挑战。
- 人为标注限制: 为标注器确保足够的资源并创建高质量的非合成数据集可能需要大量时间且成本高昂。
- Data quality
- 偏置评估: 使用 LLMs 评估其他 LLMs 可能会引入偏置,导致结果倾斜,从而可能会影响评估的准确性。
- Lack of techniques
- 对当前技术的过拟合 :严重依赖现有评估方法可能会导致模型针对这些技术进行优化,而无法实现真正的性能提升。
- Agentic workflows
- 多圈交互: 与单圈交互不同,多圈对话需要复杂的评估设计,以捕获细微差别并在扩展交换中保持一致性。
- 工作流一致性 :评估多代理交互的整体一致性和有效性是一项独特的挑战。评估智能体协同工作的效果、保持子任务之间的一致性以及生成连贯一致的输出至关重要。
将评估集成到 AI 工作流中
在 AI 开发工作流中嵌入评估流程会带来其他障碍,包括:
- 持续评估:生产中的模型需要持续评估,以确保长期的性能和可靠性,因此需要无缝集成评估工具。
- 实时反馈:在开发期间实施即时反馈机制可能具有挑战性,但对于迭代改进至关重要。
- 跨平台兼容性 :评估工具必须在不同的平台和环境中运行,以确保一致且可扩展的评估。
- 安全和隐私标准 :在评估过程中,保护敏感数据并始终遵守隐私法规至关重要。
- 碎片化和刚性框架 :许多现有工具和基准测试专注于特定指标,从而导致不连接方法。此外,刚性框架通常缺乏适应新数据、基准或上下文因素的灵活性,限制了其对不断变化的需求的适应性。
应对这些挑战需要周全的策略和工具组合,确保获得可靠的见解并无缝集成到 AI 工作流中。在接下来的几节中,我们将探索克服这些障碍的有效解决方案,并重点关注如何增强真实应用的 LLM 评估。
NVIDIA NeMo Evaluator 是一种整体解决方案,使组织能够在各种评估策略中更有效地利用各种目标的评估结果。NeMo Evaluator 可用于缓解之前概述的许多挑战,同时提供直观的开发者体验,以获得业务关键型 LLM 和 RAG 应用所需的稳健且一致的评估。
评估策略
评估 LLM 的过程涉及多种互补方法,如图 1 所示,每种方法都旨在解决模型性能的特定方面。

NeMo Evaluator 如何进行评估
为满足对 LLMs 评估的日益增长的需求, NVIDIA NeMo 团队宣布推出 NeMo Evaluator 抢先体验计划,该计划旨在以易于设置和使用的方式解决本文中介绍的大多数挑战。它使用多种不同的评估配置,使开发者能够以简单直观的方式构建高度可定制的评估流程。
评估 LLM
以下部分概述了评估 LLMs 以及嵌入和重新排序模型时可以采用的不同方法。
学术基准测试
标准化基准测试可提供一致的数据集和指标,以便跨各种任务评估 LLMs。下面列出了一些常见的基准测试。请注意,随着 LLMs 的快速发展,学术基准测试很快就会饱和,新的基准测试也会不断涌现,以测试模型的前沿能力。
核心知识
- 大规模多任务语言理解 (MMLU):此基准测试涵盖科学、技术、工程、数学、人文和社会科学领域的 57 个主题,测试了 LLM 知识的广度和深度。
- HellaSwag : HellaSwag 专注于常识推理,通过关于日常场景的多项选择题向 LLMs 提出挑战。
- WinoGrande :WinoGrande 是对 Winograd Schema Challenge 的扩展,使用包含 44,000 个问题的数据集评估 LLM 的常识推理能力。
编码
- HumanEval : 此基准测试通过解决具有特定输入 – 输出要求的编程问题,评估 LLM 生成函数式代码的能力。
- CodeXGLUE : 全面的代码智能基准测试,涵盖各种编程任务和语言。
问答
- ARC 挑战赛 (AI2 Reasoning Challenge): ARC 挑战赛由一年级的科学问题组成,测试 LLM 的推理和应用科学知识的能力。
- TruthfulQA : 评估 LLM 针对 38 个主题提供真实答案的能力,消除常见的误解
- TriviaQA :评估 LLM 的回答跨领域琐事问题的能力。
合成数据生成
- RewardBench :评估语言建模中使用的奖励模型的功能和安全性,尤其是使用 Direct Preference Optimization (DPO) 训练的模型。
- CQ-Syn (复合问题合成):生成复合问题,以评估 LLMs 处理复杂、多部分查询的能力。
后续说明
- IFEVAL : 用于测量模型指令跟随能力的关键数据集,具有 500 个提示,可通过启发式验证,例如“write in more than 300 words.”
- MT-Bench-101 : 评估 LLM 在对话式环境中遵循复杂的多回合指令的能力。
- 高难度实验 :挑战推理任务,旨在测试 LLM 遵循复杂指令的能力。
多语种
- MGSM :评估 LLM 在多语种环境中的推理能力,尤其是在复杂的推理任务中。
- XNLI (跨语言自然语言推理): 评估 LLM 跨多种语言执行自然语言推理的能力。
长语境
- LongGenBench : 评估 LLM 在通过扩展序列遵循复杂指令的同时生成长格式文本的能力。
- ZeroSCROLLS : 用于长文本自然语言理解的零样本基准测试。
特定领域
- FinanceBench : 评估 LLM 在财务问题上的表现,涵盖 SEC 提交、收益报告和财务分析等领域。
- GSM8K (Grade Schoo l Math 8K):专注于初高中数学单词问题,测试 LLM 的数学推理能力。
- 大规模多学科多模态理解和推理 (MMMU):涵盖六个核心学科的大学水平知识,让 LLMs 执行专家级任务。
通过使用这些不同的基准测试,研究人员和开发者可以全面了解 LLM 在各种领域和任务类型中的功能。这种多面评估方法可确保对模型性能进行更可靠的评估,并有助于确定 LLM 开发中需要改进的领域。
非数字评估 (LLM 即评判)
LLM 即判断方法利用 LLM 的推理能力来评估其他模型的输出。对于需要细致理解或复杂推理的任务,此策略特别有用。工作原理如下:
- 为评估器 LLM 提供包含以下内容的提示:
- 任务说明
- 评估标准
- 提供给已评估模型的输入
- 所评估的模型生成的输出
- 让评估者 LLM 根据所提供的标准评估输出
- 从 LLM 评估器接收结构化评估,其中通常包括:
- 分数
- 定性反馈
- 评估推理
这种方法非常适合自动指标无法达到要求的任务,例如评估一致性和创造力。不过,请务必注意,LLM-as-a-judge 评估可能会在 LLM 评估器训练数据中引入固有偏差。
数值评估 (相似性指标)
传统的 自然语言处理 (NLP) 相似性指标提供了评估 LLM 输出的量化方法。常见指标包括:
- BLEU (Bilingual Evaluation Understudy):将模型输出与参考翻译进行比较,以评估机器翻译质量。BLEU 分数介于 0 (不匹配,即低质量) 到 1 (完美匹配,即高质量) 之间。
- 用于 Gisting Evaluation 的面向召回性研究 (ROUGE):测量机器生成的摘要和人工生成的摘要之间的重叠。ROUGE 分数介于 0 和 1 之间,分数越高表示相似性越高。
- Perplexity: 量化预测 词序列中的不确定性,以较低的值表示预测性能更好。
评估嵌入或嵌入加 reranking 模型
嵌入和重新排序模型通常用于基于检索的任务。能够评估这些模型对于构建基于 LLM 的稳健应用至关重要。
在评估这些模型时,可利用许多标准评估指标:
- Precision@K :测量检索到的文档在一组 K 个检索到的文档中的相关比例。
- 回顾一下 K :评估在一组 K 个检索文档中成功检索的相关文档所占的比例。
- 相关性 :评估检索到的信息与查询或上下文的匹配程度。
- 时间 方面 :考虑检索到的信息的及时性和及时性。
重新排序可增强检索过程,可视为重复检查。但是,嵌入、嵌入和重新排序流程使用的指标是相同的。
评估 RAG
评估 RAG 系统存在独特的挑战,使其有别于常规 LLM 评估。这种复杂性源于 RAG 系统的双重性,即将信息检索与文本生成相结合。
在评估 RAG 系统时,传统指标证明是不够的,因为它们主要侧重于文本相似性,而无法捕捉 RAG 系统的细微差别性能。出现这一缺陷的原因在于,他们无法有效衡量事实准确性和上下文相关性。
评估 RAG 系统需要采用全面的方法,既要独立考虑检索组件,也要作为一个集成的整体来考虑生成组件。检索器组件的评估结果如前所述。这是使用 NeMo Evaluator 的一个优势,使用户能够构建模块化评估流程。
必须评估生成组件是否能够根据检索到的信息生成连贯一致、符合情境且符合事实准确的文本。此评估应考虑以下内容:
- 一致性 :生成的文本在多大程度上流畅运行并保持逻辑一致性。
- 上下文 适当性 :生成的内容是否适合给定的查询或上下文。
- 事实 准确性:生成文本中呈现的任何事实或信息的 正确性 。
为了全面评估 RAG 系统,可以使用以下端到端流程:
- 合成数据生成 (SDG):使用 NVIDIA NeMo Curator 等模型 ,可以根据向量存储中的文档创建一组合成的三元组 (question-answer-context)。
- 查询处理 :分析系统解释和处理输入查询的效果。
- 信息检索: 使用 precision 和 recall 等指标评估检索到的信息的相关性和质量。
- 内容生成 :评估生成文本的质量、一致性和事实准确性。
- 整体输出评估:评估最终输出与原始查询的相关性、事实正确性和实用性 。
- 比较分析: 将 RAG 系统的性能与基准模型或人工生成的响应进行比较。

为了解决传统指标的不足,我们为 RAG 评估提出了一些专门的指标,这些指标通过 NVIDIA NeMo Curator 中的 Ragas 框架提供:
- 检索精度 :测量检索到的与查询相关的文档所占比例。
- 检索召回 :评估从全部相关文档集中检索到的相关文档的比例。
- 忠实度: 根据给定的上下文测量生成答案的事实一致性
- 响应相关性 :评估生成的答案与给定提示的相关性。
有关实际用例的 完整 RAG 评估流程,请参阅使用 NVIDIA AI Endpoints 和 Ragas 评估医疗 RAG 。
评估生成式 AI 准确性的后续步骤
本文概述了评估所面临的挑战,并介绍了一些成功的方法。评估是一个需要推理的复杂主题,包含许多可针对您所需的下游任务进行定制和调整的区域。它还存在一些技术和实施障碍,可能会消耗关键的开发时间。
正如我们所述,借助 NeMo Evaluator,您可以将更多时间用于有用的迭代和改进周期。NeMo Evaluator 目前处于 Early Access 阶段。如果您有兴趣加速评估工作流程, 请申请 NeMo Evaluator Early Access 。