代理式 AI/生成式 AI

NVIDIA Kaggle 大师夺冠人工智能竞赛

NVIDIA 的研究人员在周五的 Kaggle 竞赛中拔得头筹,这一赛事被业界许多人视为对人类在人工智能(AGI)领域进展的一次实时检验。

NVIDIA Kaggle Grandmasters(KGMoN)的两名成员 Ivan Sorokin 和 Jean-Francois Puget 通过构建基于同一数据集评估 ARC-AGI-2 基准的解决方案,在 Kaggle ARC Prize 2025 公共排行榜上以 27.64% 的得分位居前列。

该团队将自己命名为 NVARC,通过对 4B 模型变体进行微调,在同一基准测试中,其表现显著优于更大、更昂贵的模型,且每项任务仅需花费 20 分钱。这一成果不仅展现了当前领先的性能,也标志着在可扩展、低成本的 AGI 式推理方面取得了重要突破。

ARC-AGI 基准测试用于评估 AI 系统在抽象推理方面的能力,要求其基于少量示例,解决基于网格的视觉谜题并实现泛化。 ARC-AGI-2 是该基准的升级版本,难度更高,旨在消除与公开训练数据的重叠。它经过专门设计,能够有效抵御捷径解法和强行记忆,从而更清晰地检验 AI 系统真正的抽象推理能力。

ARC-AGI 基准测试已成为衡量人工智能通用推理能力进展的重要指标之一。与典型的机器学习基准不同,ARC-AGI 的任务无法依靠模型规模、记忆能力或简单模式识别来解决。每个谜题仅提供少量示例,以小型网格形式呈现,要求系统必须理解其中的抽象规则,并将其推广至全新的测试情境。因此,业界普遍认为,在更具挑战性的 ARC-AGI-2 上取得的分数,能够反映出 AI 系统在缺乏先验知识时的学习与推理能力极限。

这正是 Kaggle ARC Prize 2025 排行榜意义重大的原因:它提供了一个开放且可复现的竞技平台,让研究人员能在严格的计算与时间限制下,检验类 AGI 的推理能力。

屡获殊荣的 NVIDIA NVARC 解决方案并非由巨型模型或强力搜索驱动,而是基于开发者易于理解的三个核心理念:合成数据、测试时训练以及严谨的工程设计。

重量级的大语言模型推理方法(包括思维链、工具调用,乃至基于强化学习的智能体)难以满足Kaggle严格的运行时限制。为此,NVARC颠覆了传统策略:将所有复杂的推理过程提前转移到离线的合成数据流水线中,转而训练在评估阶段能够快速运行的轻量级模型。

该团队采用分阶段谜题生成、概念分解以及逐步增强的开放权重模型(如 Qwen),构建了一个多样化的合成语料库,用于ARC式任务。通过使用开放模型,团队能够检查并调整模型权重,共享方法,并快速迭代推理系统,从而将前沿能力转化为可供广泛使用的协作基础,实现透明且可复现的微调研究。

最终模型只需识别并调整模式,无需执行完整的程序搜索逻辑。通过在测试时训练,模型能够从每个谜题的少量示例中学习其具体特征,这一技术已成为实现领先 ARC-AGI 性能的关键。

其结果是一个紧凑且经济高效的集成系统,性能超越了更大规模的架构,为 ARC-AGI-2 树立了新的标杆,展现了合成数据与自适应学习在推动推理能力进步方面的巨大潜力。

为成功构建这些高效解决方案,该团队采用了 NVIDIA NeMo 工具套件,包括用于可扩展强化学习的 NeMo RL 以及用于简化 SDG 流程的 NeMo 技能

深入了解 NVARC 在 Kaggle 上的技术细节,并观看关于 ARC 的访谈

标签