立即下载 DOCA,开启高性能AI 网络之旅,实现“一站式” 编程
生成式人工智能/大语言模型

新的奖励模型有助于改善 LLM 与人类偏好的匹配

从人类反馈中进行强化学习(Reinforcement learning from human feedback)对于开发符合人类价值观和偏好的 AI 系统至关重要。RLHF 使最强大的 LLMs,包括 ChatGPT、Claude 和 Nemotron 系列能够生成出色的响应。

通过将人工反馈集成到训练过程中,RLHF 使模型能够学习更细致入微的行为,并做出更好地反映用户期望的决策。这一方法提高了 AI 生成的响应的质量,并增强了 AI 应用中的信任度和可靠性。

为了帮助 AI 社区轻松采用 RLHF 来构建和自定义模型,NVIDIA 发布了 Llama 3.1-Nemotron-70B-Reward ,这是一种先进的奖励模型,可对 LLM 生成的响应进行评分。这些分数可用于提高 LLM 响应质量,使人类与 AI 之间的互动更加积极、更具影响力。

#1 奖励模式 

Llama 3.1-Nemotron-70B-Reward 模型目前在 Hugging Face 的 RewardBench 排行榜上 排名第一,用于评估奖励模型的能力、安全性和陷阱。

该模型在整体 RewardBench 中的得分为 94.1%,这意味着它可以识别与人类偏好一致的响应 94% 的时间。

Screenshot of the leaderboard shows the ranking of various reward models and their accuracy across different categories. The model on the top of the RewardBench leaderboard is NVIDIA’s Llama-3.1-Nemotron-70B Reward model.
图 1. Llama-3.1-Nemtron-70B-Reward 在各种类别的 RewardBench 排行榜上名列前茅。

该模型在聊天(Chat)、聊天(Chat-Hard)、安全(Safety)和推理(Reasoning)这四个类别中均表现出色。其在安全(Safety)和推理(Reasoning)方面的表现令人印象深刻,准确率分别为 95.1%和 98.1%。这意味着该模型可以安全地拒绝潜在的不安全响应,并在数学和代码等领域支持 RLHF。

此模型的大小仅为 Nemotron-4 340B 奖励的五分之一,可提供高计算效率和超高的准确性。此外,此模型仅根据 CC-BY-4.0 许可的 HelpSteer2 数据 进行训练,因此适用于企业用例。

实施 

为训练此模型,我们结合了两种常用方法,以充分发挥两者的优势:

我们使用 HelpSteer2 中发布的数据使用这两种方法进行训练。模型性能的一个重要贡献是高数据质量,我们精心策划并发布这些数据,以推进面向所有人的 AI。

借助 NVIDIA NIM 轻松部署 

Nemotron Reward 模型封装为 NVIDIA NIM 推理微服务,可简化和加速生成式 AI 模型在 NVIDIA 加速基础设施(包括云、数据中心和工作站)中的部署。

NIM 使用推理优化引擎、行业标准 API 和预构建容器,为需求提供高吞吐量 AI 推理。

开始使用 

立即通过浏览器体验 Llama 3.1-Nemotron-70B-Reward 模型 ,或进行大规模测试,并使用在完全加速的堆栈上运行的 NVIDIA 托管 API 端点构建概念验证(PoC)。

访问 ai.nvidia.com ,获取免费的 NVIDIA 云积分,或从 Hugging Face 下载模型。

有关如何训练模型以及如何将其用于 RLHF 的更多信息,请参阅 HelpSteer2-Preference:Complementing Ratings with Preferences。

 

标签