人工智能正在重塑科学研究与创新的方式。科学家可以借助AI生成、汇总、整合并分析科学数据。AI模型能够从人类科学家可能忽略的数据中识别出模式,发现看似无关领域或现象之间的关联,甚至提出有待验证的新假设。
AI 联合科学家是一种协作式多智能体系统,旨在协助人类研究人员生成、评估和优化科学假设、研究提案及实验方案。作为虚拟科研伙伴,它融合高级推理能力、跨学科知识整合与迭代反馈机制,以加速科学发现进程。该系统能够与人类专家协同设计实验、分析数据并验证结果,支持严谨且可复现的科学研究。
大语言模型(LLM)通过整合文本与非文本来源的知识和数据进行定制化训练。这位联合科学家借助这些知识生成新的假设,并运行模拟以测试和验证这些想法。人机协作在这一过程中发挥着关键作用。
本文探讨了 NVIDIA 如何为这些 AI 联合科学家提供支持,并展示了洛斯阿拉莫斯国家实验室(LANL)正在开发的两种智能体,旨在应对当前科学领域的两大严峻挑战:惯性约束聚变(ICF)的假设生成与癌症治疗。
负责 ICF 假设生成的 AI 联合科学家
洛斯阿拉莫斯国家实验室(LANL)与NVIDIA正开展多阶段合作,旨在联合培养一名科学家,以生成ICF聚变相关假设。
聚变是为恒星提供能量的过程。在地球上实现聚变发电是一项重大的科学挑战。惯性约束聚变(ICF)是一种通过强能量源(如激光)快速压缩和加热微小燃料颗粒,从而引发原子核融合并释放能量的技术。ICF 不仅有助于探索极端条件下的物质特性,例如木星内部存在的物质状态,还在国家安全领域具有重要应用。
由于惯性约束聚变(ICF)是一个高度耦合的多物理场非线性问题,大规模模拟的可预测性仍是当前面临的一项重大科学挑战。这种复杂性源于ICF涉及多种物理现象的模拟,这些现象在不同空间和时间尺度上运行,并可能以不可预知的方式相互作用。实验结果在大型激光装置中往往因初始条件的微小变化或目标设计参数的调整而偏离理论预测。为了加快科学理解与技术进步,有必要充分利用包括人工智能在内的各类先进工具。
在该流程的第一阶段,LANL 将采用开源的 NVIDIA NeMo 框架库,具体包括:
- NeMo Curator 用于数据管护
- NeMo 2.0 支持持续预训练与微调
- NeMo RL 则用于 Llama Nemotron Super 1.5 模型的强化学习。该模型将具备更强的领域感知能力,可作为构建可信 AI 联合科学家系统的基础
图2展示了将 Llama Nemotron Super 1.5 转化为ICF物理推理模型的流程。该流程包括利用来自公共数据集、CORE、arXiv 以及 OSTI.gov(涵盖物理和ICF领域)的开放获取文档,构建用于领域自适应预训练(DAPT)、监督微调(SFT)和推理追踪的数据集。
为验证模型是否具备ICF相关知识,我们采用了学术及自定义基准,其中包括由领域专家设计的问题。
这项工作的最终目标是解决聚变研究中若干最具挑战性的问题,例如提升美国国家点火装置(National Ignition Facility)和 OMEGA 激光装置上正在进行的ICF内爆实验的性能。为此,需要结合计算模拟与物理实验,发展科学概念并进行基准验证。
通过优化设计并整合实验结果的反馈,这位AI联合科学家将提供关键见解,为当前及新一代ICF设施的实验提供指导。这不仅有助于推动更高效、更可靠的聚变能源解决方案的发展,还将解决与物质基本特性及国家安全相关的重要科学问题。
癌症治疗领域的 AI 联合科学家
若精准实施,靶向治疗(TAT)可成为一种极为有效的癌症治疗手段。放射性原子释放的高能粒子能够破坏邻近的癌细胞。然而,若定位不够精确,则可能导致这些强效辐射损伤健康组织,引发意料之外的副作用。
为尽量减少此类附带损伤,TAT 依赖于专门的螯合剂来结合放射性原子,并将其输送至肿瘤部位。然而,在复杂的生物环境中设计出既能保持稳定又具有高选择性的高效螯合剂,仍是当前研究面临的重要挑战。
由于TAT中所用金属的原子半径较大,已知能够稳定结合的分子十分有限,这制约了研究人员利用数据驱动方法设计新型或改进型治疗药物的能力。
洛斯阿拉莫斯国家实验室(LANL)正在构建一个代理式 AI 发现平台,将生成式人工智能与模拟技术整合到统一的工作流程中,以识别新型且性能更优的合成分子。该研究通过加速对广阔化学空间的搜索,为开发更安全、更有效、更具靶向性的疗法开辟了新路径。
AI 在回答诸如“什么是理想的分子?”和“哪些分子具备此类特性?”等基本设计问题方面发挥着核心作用。为推动这一进程,洛斯阿拉莫斯国家实验室(LANL)对 NVIDIA 的 Llama Nemotron Super 1.5 和 GenMol 模型进行了调整,使其专注于分子发现与优化。
工作流程概述
在此工作流中,智能体利用 Llama Nemotron Super 1.5 生成假设。其机制是:向大语言模型提供问题描述以及此前已测试过的假设列表,模型基于自身知识和对已有假设的评估,为下一轮发现循环推荐更具前景的假设。
然后利用 GenMol 生成一组分子用于验证假设。这些生成的分子与已知药物具有相似性,并可根据提示或科学家的设计需求进行调整,以满足科学标准,例如 LLM 假设中所列出的特性。
然后,该过程利用 Architector 在合体结构与放射性原子之间构建化合物。
接下来,工作流程将转向基于NVIDIA驱动的洛斯阿拉莫斯国家实验室超级计算机Venado,开展计算建模。通过高性能量子模拟对三维分子结构进行分析,以预测关键化学性质。
这些模拟数据最终用于评估大语言模型所提出假设的有效性,从而为后续决策提供依据。上述两种工具均被封装为 NIM,有助于自动选择性能更优的配置。借助加速计算,科学家能够在假设与生成数据之间形成闭环,快速调整并循环执行多轮设计与模拟。
通过该工作流,洛斯阿拉莫斯国家实验室(LANL)与NVIDIA的联合团队已成功发现对锕系原子具有更强结合能力的分子。这种基于假设的设计方法有助于加快优选分子的识别过程,并凸显其关键优势特性。同时,该方法使研究人员能够优化设计流程,实现与人工智能更高效的协同,推动候选分子的进一步优化与完善。
这项工作标志着一个变革性研究的开端,旨在通过现实世界的应用来设计新型分子。其影响可能十分深远,因为这类化合物不仅在癌症治疗中具有应用潜力,还适用于中毒的快速解毒、金属的高效提纯以及多种其他化学领域。
接下来,重点将放在评估其可行性、与交付系统的整合,以及潜在的安全影响上。
“通过与 NVIDIA 合作,洛斯阿拉莫斯国家实验室率先在研究中设计并部署了 AI 联合科学家,” 模拟、计算和理论副实验室主任 Mark Chadwick 表示。“这些联合科学家能够在复杂的学科领域中高效地提出并验证假设。我们正将领域专业知识与 NVIDIA 的人工智能技术相结合,打造专为实现我们使命而定制的联合科学家,以应对人类面临的一系列重大挑战。”
本研究使用了美国能源部科学办公室下属用户设施——美国国家能源研究科学计算中心(NERSC)的 Perlmutter 超级计算机资源。
开始培养 AI 联合科学家
利用 AI 推动科学发现,有助于加快关键评估,缩短研发周期,并以前所未有的速度获取更深入的科学洞察。如需了解相关工作的更多详情,欢迎在 SC25 大会上前往 NVIDIA 展位,参加由 NVIDIA 与洛斯阿拉莫斯国家实验室(LANL)联合举办的聚变推理模型及用于分子发现的代理式 AI 专题讲座。若希望着手构建自己的 AI 科研协作系统,可探索 NVIDIA NeMo 与 Nemotron 平台。
致谢
感谢 Ping Yang、Danny Perez、Logan Augustine、Pascal Grosset、Jiyoung Lee、Thomas Summers、Michael Taylor、Radha Bahukutumbi 和 David D. Meyerhofer 的贡献。