数据中心/云端

借助 NVIDIA AI 基础模型 VISTA-2D 推进细胞分割和形态分析

基因组学研究人员使用不同的测序技术来更好地理解生物系统,包括单细胞和空间组学。与从细胞层面查看数据的单细胞不同,空间组学考虑了数据的位置,并考虑到用于分析的空间环境。

随着基因组学研究人员寻求在组织层面跨多个组学对生物系统进行建模,空间组学领域正在推动一种新的范式,即在空间环境中询问细胞的方法。大多数这些空间组学方法都依赖于成像,以便在不分离细胞与组织的情况下查看标记 (如光标记)。

这些标签可以应用于不同的分子 (例如 RNA 和蛋白质),并保留其起源细胞的空间信息以及细胞在组织中的位置。这种成熟的细胞动力学建模方法正在推动对发展和疾病的新理解,并标志着研究人员激动人心的范式转变。

NanoString 等空间组学提供商利用 NVIDIA GPU 并加速其 CosMx SMI 设备上的计算,以应对这些挑战。空间组学技术 (CosMx 空间分子成像) 现在可以对细胞和组织内的整个转录组成像,以前所未有的密度和规模生成数据 (约 150 TB/cm2)。这些数据将在转变我们对健康和疾病的理解方面发挥关键作用,从根本上加速药物研发和空间诊断。

“实际上,探索这些图像的真实信息内容需要生成式 AI,”他补充道,“我们很高兴能继续在数据到信息流程的各个层面上深化与 NVIDIA 的合作。我们邀请所有 AI 社区加入我们的这场生命科学空间生物学革命。”

本文介绍了 NVIDIA AI 基础模型 在细胞分割的 VISTA-2D 中的应用。这些模型可在各种细胞成像输出上进行训练,包括明场、相位对比、光、共聚焦或电子显微镜检查。

用于细胞分割的 VISTA-2D NVIDIA AI 基础模型 

分析这些空间组学方法的图像的最重要步骤之一是细胞分割。随着标签的表达和计数,将这些标记归功于正确的细胞对于获得准确的结果至关重要。这取决于正确绘制的细胞边界。这不仅对下游的所有结果至关重要,而且也是一项非凡的任务,需要识别大量不同的细胞类型 (每种类型都有自己的形态),并在数万到数十万个细胞中实现自动化。

VISTA-2D 利用 Transformer 网络架构在后台工作,并结合 Meta 的 Segment Anything 模型 (SAM) 预训练权重,以提高性能结果。VISTA-2D 与广泛的预处理和后处理流程结合,以有效训练任何给定类型的数据。这提供了基于实例的高分辨率分割,并可与细胞形态学和基因微扰任务进一步配对。VISTA-2D 的网络架构包含约 1 亿个训练超参数,使其具有可调整性和可扩展性,以实现快速细胞分割。

模型亮点 

  • 基于 Transformer 的强大深度学习算法
  • 与专业模型相比的通用模型
  • 支持多种数据集源和文件格式
  • 集合支持多种成像数据模式
  • 多 GPU 和多节点训练支持
Side-by-side images showing how accurate cell segmentation enables the identification of mRNA markers in cells.
图 1、 NanoString CosMx SMI 平台中的细胞成像和标记表达示例 (左)。准确的分割对于确保标记归功于正确的细胞至关重要 (右)

VISTA-2D 是一种通用的细胞分割管线,与之前的文献中提出的专业模型相比,该管线旨在处理多种类型的细胞。训练管线基于 MONAI 生态系统,并使用行业级代码实践。它还包括对多 GPU 的训练支持,如果训练数据集足够大,则可以扩展到多节点环境。

VISTA-2D 训练流程还可以整合来自多个来源、不同成像模式和平台的数据集,训练过程旨在平衡所有数据集来源的影响。

Transformer network architecture for the foundation cell segmentation model, including an image encoder and mask decoder and prompt encoder of image embeddings.
图 2、 VISTA-2D 基于 Transformer 网络架构构建,可用于执行分割任务,并可从中从图像嵌入中提取形态表示

VISTA-2D 工作流的独特之处在于,它影响了预处理和后处理数据所需的转换,其中多个因素会影响性能。例如,垂直和水平梯度流动使网络能够在单元的不同实例和形状之间进行传播。

该模型还不包含推理时超参数,此类超参数已在之前的知名方法 (例如 CellPose) 中找到。例如,需要在推理期间指定单元的直径大小。

基准测试数据集的性能 

对包含多个公共数据集的 VISTA-2D 模型进行了广泛的评估,例如 TissueNetLIVECellOmniposeDeepBacs、Cellpose 等。为了训练通用型 VISTA-2D 模型,我们共收集了约 15000 张带注释的细胞图像,以覆盖各种不同类型的细胞,这些细胞是通过各种成像采集类型获得的。VISTA-2D 模型可针对各种采集进行通用和灵活的训练,并且可以在用户的自定义数据集上进行训练,最多可支持三个通道。

该实验的基准测试结果在已由数据集贡献者定义的每个公开数据集的保留测试集上执行。在评估性能时,使用了 IoU 值为 0.5 时成熟的平均精度标准指标。除了仅在特定数据集或数据子集上训练的专业 VISTA-2D 模型之外,还报告了基准测试结果与文献中找到的最佳数字的比较。

结果表明,与基于 Transformer 的网络架构相比,基于 Transformer 的网络架构不仅可以实现更高的精度,还可以使用更少的训练数据,并通过生成的嵌入生成有关细胞形态的潜在新见解。有关更多信息,请参阅 Cellpose 2.0 的论文。

A chart showing improved average precision for VISTA-2D over the baseline performance of a variety of specialist models for TissueNet (TN), LIVECell (LC), Cellpose, Omnipose, and DeepBacs.
图 3.与 TissueNet (TN)、LIVECell (LC)、Cellpose、Omnipose 和 DeepBacs 的各种专业模型的基准性能相比,VISTA-2D 的平均精度得到提升

总结 

细胞分割是分析从空间组学技术获得的图像的关键前奏步骤之一。VISTA-2D 是用于细胞分割的 NVIDIA AI 基础模型,可以在明场、相位对比、光、共聚焦或电子显微镜下进行训练。VISTA – 2D 具有约 1 亿个训练超参数的网络架构,具有适应性、快速性和可扩展性。

要试用使用 MONAI 服务的 VISTA-2D 训练管线,请 加入抢先体验计划

如需了解更多信息,请点播观看以下 NVIDIA GTC 2024 会议:

 

标签