模拟/建模/设计

使用生成模型 Proteina-Complexa 设计蛋白质结合剂

开发基于蛋白质的新疗法和催化剂涉及到设计这一富有挑战性的任务蛋白质结合剂或与目标蛋白质或小分子结合的蛋白质。为设计的结合剂寻找可能的氨基酸序列排列组合和生成的 3D 蛋白质结构的搜索空间很大,而实现强大的特定结合需要仔细优化蛋白质结合剂和标之间的相互作用。

为了应对这些挑战,NVIDIA 发布了 Proteina-Complexa,这是一种用于重新设计蛋白质结合剂和酶的生成模型。

在本文中,我们将详细介绍 Proteina-Complexa 背后的关键技术,探索主要用例,并重点介绍对生成的蛋白质结合剂的广泛实验验证。我们还提供了使用命令行界面生成您自己的 Binder 的分步指南。

Proteina-Complexa 中的关键技术

Proteina-Complexa 的性能依赖于三个不同的技术组件:基础生成模型、训练数据集以及推理时计算扩展的集成。

基于 La-Proteina 模型,Proteina-Complexa 使用部分隐性流匹配框架来生成全原子结合结构 (蛋白质骨架和侧链) 和相应的氨基酸序列,称为协同设计。在这种方法中,主干碳原子在 3D Cartesian 空间中进行显式建模,而所有其他原子 (侧链和非碳) 和氨基酸序列通过自编码器压缩到已学习的潜在空间中。这平衡了原子保真度与计算可追溯性。

从历史上看,计算工作流已将结合剂设计作为一个分散的过程,通常依靠单独的模型来生成主干和序列。虽然这些模块化方法可以产生出色的结果,但协同设计可以实现原子层面的推理。通过同时生成氨基酸序列和全原子结构 (骨架和侧链) ,Proteina-Complexa 可确保化学特性和 3D 几何图形紧密合。这种集成生成技术允许设计精确、高相关性的接口,这些接口针对折叠和合成进行了内在优化。

训练蛋白质结合剂设计的生成模型需要有关结合剂及其标的大量结构数据。Proteina-Complexa 基于蛋白质数据库 (PDB) 、AlphaFold 蛋白质结构数据库、PLINDER 和最近发布的 Teddymer 数据集 中超过 100 万个精心策划的高质量实验和预测结构进行训练。

Proteina-Complexa 模型还引入了一种设计结合剂的新方法,统一了一种生成方法,该方法利用有关蛋白质结合剂结构的知识和推理时计算扩展,在推理过程中迭代优化设计。在键合剂生成过程中,“推理”搜索算法 (例如,Beam Search、Best-of-N) 会在中间步骤中评估和完善候选项,在困难目标上投入更多计算,同时保持蛋白质结构知识的计算效率。

这种新的统一方法提高了模型的计算效率和生成的绑定的质量,通过计算机成功指标和经实验验证的目标绑定来衡量。

Proteina-Complexa 的用例

Proteina-Complexa 用例包括用于蛋白质标和小分子标的蛋白质结合剂,以及酶设计。

用于蛋白质标的蛋白质结合剂

您可以使用 Proteina-Complexa 从头设计蛋白质结合剂,以对抗肿瘤学、免疫学和神经学等适应症中与疾病相关的标。Proteina-Complexa 可生成具有完整原子细节的结合剂:蛋白质骨架、侧链和氨基酸序列,无需中间建模步骤即可直接交接至实验测试。

此用例已经过 Manifold Bio、Novo Nordisk、Viva Biotech 和杜克大学合作者的实验验证。

图 2 显示了 Proteina-Complexa 生成的以下粘结剂:

  • 具有挑战性的 TNF – 三链蛋白质标 (a) ,通过生成的紫色结合剂进行表面表示
  • 以灰色表面表示 Claudin-1 蛋白质标 (b) ;放大显示标和结合剂之间的红色界面氢键
  • 灰色小分子标 (c) ,紫色/ 金色结合剂

适用于小分子标的蛋白质结合剂

您可以使用 Proteina-Complexa 设计与特定小分子结合的蛋白质。其应用包括向给药、生物传感器和原药激活。

此用例已通过与剑桥大学的合作进行了实验验证。

酶设计

给定特定的酶活性位点 (负责催化化学反应的氨基酸残基的 3D 排列) ,您可以使用 Proteina-Complexa 生成结构上多样化的蛋白质,这些蛋白质与活性位点结构相结合。该功能支持针对工业生物催化剂、环境修复和合成生物学应用进行从头设计酶。

实验验证

NVIDIA 团队与多个外部合作伙伴合作,在广泛的湿实验室实验中验证了 Proteina-Complexa 生成的从头蛋白质。总体而言,Proteina-Complexa 生成了数千万个候选计算机模拟初始值。过滤后,我们针对 133 个不同的蛋白质标对大约 100 万种候选结合剂进行了实验测试,从成熟的基准标到与治疗相关的标 (以前未报告过结合剂) ,不一而足。

利用先进的多路复用菌体筛选技术进行了大规模实验,以测量所有候选标的结合命中率,这是迄今为止最大的结合剂设计基准之一。

此外,还使用表面等离子体共振和西点印迹法,测量了选定目标标的定量结合动力学。生成的蛋白质表达良好,展现出高折叠稳定性,并且 Proteina-Complexa 能够生成针对大多数标的结合剂,包括具有纳米摩尔亲和皮摩尔亲和力的结合剂。例如,Proteina-Complexa 可生成与 Activin Receptor Type-2A 的强结合剂,而 Activin Receptor Type-2A 是以肌肉消融为特征的疾病的一个有前景的治疗标,文献中未报告过类似的迷你结合剂。

除了蛋白质标之外,该团队还通过设计与红细胞表面的糖分子结合的蛋白质,突破了 Proteina-Complexa 的极限。设计蛋白质以附着于糖类是一项重大挑战,因为碳水化合物体积小,极性较高,并且覆盖在密集的一层水中,通常会阻止蛋白质形成稳定的附着。

虽然现有的 AI 工具主要在疏水 (防水) 表面上取得成功,但我们的系统为这项艰巨的糖结合任务生成了 24 个候选项。在实验室分析中,其中有四种设计显示出强烈的凝聚信号,与目前用于实验室的天然蛋白质 (称为凝集素) 相比,将红细胞聚集在一起的效率更高。

额外的生物层干涉测量法明确证实了潜在候选化合物与碳水化合物标的直接结合。通过成功与这些极性标结合,Proteina-Complexa 证明了它可以处理以前认为几乎无法设计的复杂医疗标。

如需了解更多信息,请参阅潜在生成式搜索重新设计未开发的大规模生物分子相互作用.

如何使用 Proteina-Complexa 生成自己的蛋白质结合剂

以下示例使用 Proteina-Complexa 命令行界面。

预备知识

  • 熟悉 Python、YAML 配置文件和基本蛋白质结构概念
  • 至少使用一个 NVIDIA A100、H100 或更新版本的 GPU

安装和设置

第 1 步:下载代码

# Clone the repository
cd Proteina-Complexa

第 2 步:设置环境

使用 UV 包管理器:

# Create a virtual environment and install packages
./env/build_uv_env.sh
source .venv/bin/activate
# Create the environment configuration file (.env)
complexa init

编辑环境配置文件 (.env) 并设置适当的环境变量路径:

LOCAL_CODE_PATH=/path/to/Proteina-Complexa/
LOCAL_DATA_PATH=/path/to/Proteina-Complexa/assets

加载环境配置:

# Create the shell set up script
complexa init uv
# Load the environment variables into the current session
source env.sh

第 3 步:下载模型检查点

# Download Proteina-Complexa model checkpoints
complexa download --complexa-all
# Download community model checkpoints
complexa download --all

第 4 步:验证设置

complexa validate design
configs/search_binder_local_pipeline.yaml

如何为蛋白质标设计粘结剂

此示例为经过验证的治疗标 PD-L1 设计粘结剂。

第 1 步:添加目标蛋白质、目标信息和结合剂长度

请注意,对于 PD-L1 示例,此步骤不是必需的,因为目标蛋白质已经添加。

complexa target add pdl1 \
      --target-path /path/to/your/pdl1.pdb \
      --target-input A1-150 \
      --hotspot-residues A45 A67 A89 \
      --binder-length 60 120

第 2 步:验证是否已成功添加目标

complexa target list
complexa target show 02_PDL1

第 3 步:运行完整的设计流程:生成 – > 筛选 – > 评估 – > 分析

complexa design configs/search_binder_local_pipeline.yaml \
   ++run_name=pdl1_design \
   ++generation.task_name=02_PDL1

第 4 步:监控工作流进度

complexa status

这个复杂设计命令依次运行所有四个工作流阶段。这个 键 = 值syntax 使用 Hydra 覆盖命令行中的 YAML 配置参数。

在这种情况下,工作流使用 Proteina-Complexa 生成候选绑定器,按 AlphaFold2 奖励分数对其进行过滤,使用 ProteinMPNN 重新设计序列并使用结构预测重新折叠来评估最佳候选项,并输出包含所有指标的摘要 CSV。

您还可以单独运行每个阶段:

complexa generate configs/search_binder_local_pipeline.yaml  # Generate binder structures
complexa filter configs/search_binder_local_pipeline.yaml    # Filter by reward scores
complexa evaluate configs/search_binder_local_pipeline.yaml  # Evaluate with refolding
complexa analyze configs/search_binder_local_pipeline.yaml   # Aggregate results

如何为小分子标设计粘结剂

配体结合工作流使用相同的四阶段工作流和不同的配置文件,这些配置文件指向配体标模型检查点。此示例设计了 S 腺基甲蛋白 (SAM) 的结合剂,这是一种与氨基酸丁酸转移酶 CntL 结合的小分子 ( PDB 条目 7C7M) 。

第 1 步:添加小分子标

请注意,由于已添加配体,因此 SAM 示例无需执行此步骤。

complexa target add sam \
    --target-path /path/to/your/7C7M.pdb \
    --ligand SAM \
    --binder-length 100 \
    --dict configs/targets/ligand_targets_dict.yaml

第 2 步:验证是否已成功添加目标

# List all ligand targets in ligand_targets_dict.yaml
complexa target list --dict configs/targets/ligand_targets_dict.yaml
# Show details for the ligand in 7C7M
complexa target show 42_7C7M_LIGAND --dict configs/targets/ligand_targets_dict.yaml

第 3 步:运行配体结合剂设计流程

complexa design configs/search_ligand_binder_local_pipeline.yaml \
   ++run_name=sam_design \
   ++generation.task_name=42_7C7M_LIGAND

工作流阶段 (生成、筛选、评估、分析) 与蛋白质标工作流相同。唯一的区别是配置文件 (用于选择配体 – 点检查点) 和点规格格式。

请注意以下要求:

  • Proteina-Complexa 可在单台或多 GPU 计算机上本地运行,也可在多台计算机的集群上运行。
  • 支持 Docker 和 UV 虚拟环境。

开始蛋白质结合剂设计

Proteina-Complexa 是计算蛋白质结合剂设计领域的一大进步,它将全原子结构和序列的共同设计与推理时间计算相结合,为蛋白质和小分子标生成高质量的结合剂,同时还能为酶活性位点提供精确的支撑。

通过发布源代码、经过训练的模型检查点、数据集和详细介绍创新的研究论文,我们的目标是为研究人员和开发者构建新一代基于蛋白质的疗法、催化剂和生物传感器提供可定制的基础。

准备好开始了吗?

  • 运行推理: 为目标生成高质量、完全原子化的结合剂。
  • 训练和微调模型:根据您的用例调整 Proteina-Complexa 模型。

查看以下资源:

我们诚邀您与来自 Manifold Bio、Novo Nordisk、Viva Biotech、杜克大学、剑桥大学、慕尼黑工业大学和波恩大学的合作伙伴一起探索 Proteina-Complexa 生成蛋白质结合剂等的功能。

致谢

感谢以下人员对此博文的支持和贡献:Micha Livne、Tomas Geffner、Zhonglin Cao、Guoqing Zhou、Kushal Shah、Quiara Neam、Xi Chen、Tianjing Zhang、Pia Hardy、Alejandra Rico、Emine Kucukbenli 和 Arash Vahdat。

标签