模拟/建模/设计

大规模合成逼真的 3D 医学影像,提供经过预训练的模型

高质量的 3D 医学成像数据是现代放射学 AI 的基础,但对这些数据的访问往往受到数据稀缺、隐私限制和专家标注成本高昂的限制。因此,训练可靠的 3D 医学成像模型经常会因数据集小巧、狭窄且难以共享而成为瓶颈,从而限制了模型的稳健性和泛化。

为帮助团队克服这些挑战,NVIDIA 于 2024 年推出了适用于合成成像的医学 AI (MAISI) ,这是一种先进的生成式模型,可通过像素级解剖学分割合成高分辨率 3D CT 体,以保护隐私、保护数据增强和研究。

NV-Generate-CTMR 基于 MAISI 架构系列 (包括采用潜在修正流的 MAISI-v2) 构建,可提供用于生成合成 CT 和 MRI 的开源端到端框架。它使研究人员和开发者能够大规模生成逼真的 3D 体积和配对分割,将其直接集成到训练流程中,并加速下游医学成像 AI 开发。

本博文介绍了 NV-Generate-MR-Brain,这是一种用于合成生成人脑解剖学和结构分割的新模型,基于 MAISI 架构构建,并将其扩展为合成 3D 医学成像生成的可扩展、开放工作流。

打破 3D 医学影像数据瓶颈

NV-Generate-MR-Brain 由苏黎世大学、Medipol 大学医院、Forithmus 和 NVIDIA 联合发布的多模态 MR-RATE 数据集训练而成。该数据集在广受认可的 CT-RATE 数据集和多模态基础模型的基础上构建,基于 MR-RATE 数据集

MR-RATE 是全球最大的开源多模态 MRI 数据集,包含来自 83000 多名患者的 10 万例脑部 MRI 研究 (总计约 70 万份) ,每份研究都与去识别放射学报告、临床和扫描仪数字成像和医学通信 (DICOM) 元数据配对。创建该数据集的目的是为开发理解成像和临床环境的研究和商业 AI 系统奠定大规模的开放基础。

MR-RATE 可捕捉现实世界神经成像实践的多样性,涵盖不同的扫描仪类型、成像协议和神经病理。MR-RATE 数据集以开放的 CC-BY-NC 许可证发布,适用于通过 Forithmus 获得商业许可证的研究机构。

按设计开源

该库包括端到端推理代码、预训练权重和训练配置,使团队能够立即开始使用,而无需从头开始重建复杂的工作流。用户可以根据自己的数据集生成开箱即用的合成图像或微调模型,以适应新的解剖结构、扫描仪或模态,从而显著降低技术和计算障碍。

在此项目中,代码、数据和模型等所有要素均随开源许可证一起发布,其中大多数模型均在 NVIDIA 开放模型许可证下发布。这些模型的推理可在 NVIDIA RTX GPU 上免版税运行,以生成图像,根据新数据或新用例微调模型。

为什么图像生成对于医疗 AI 至关重要

医学影像合成已迅速成为医疗 AI 开发的核心能力。团队使用合成数据来增强有限的训练集,在 CT 和 MRI 等成像模式之间转换,模拟罕见病理学,并在不暴露真实患者信息的情况下实现隐私保护和数据共享。

通过生成逼真、解剖学一致性的 3D 立体 (通常与分割标签搭配使用) ,合成数据可帮助模型在标记样本稀缺时更好地进行泛化,并在站点、扫描仪和协议之间实现一致的基准测试。

随着临床成像变得越来越个性化、异构和多模态,可扩展和可控的生成框架不再是可选的,它们对于构建强大的医疗 AI 系统至关重要。

现有医学影像合成方法的局限性

多年来,医学影像合成方法主要分为三类:直接回归模型、基于生成式对抗网络 (GAN) 的方法,以及最近通过迭代降噪生成图像的扩散模型。

其中,扩散模型已成为最新技术,可提供更高的稳定性,并能够对复杂的解剖分布进行建模。然而,在实际临床工作流程中应用扩散模型仍然具有挑战性。

首先,现实世界的医学影像在扫描仪、采集协议和体素间距方面差异很大,这使得在窄数据集上训练的模型难以泛化。

其次,CT 和 MRI 本身是 3D 模态,但完整的 3D 扩散模型在时间和 GPU 显存方面的计算成本很高。

第三,即使提供了调节信号 (例如口罩或解剖学提示) ,生成的输出也可能无法忠实地遵循这些输入,从而限制了其在受控或特定任务生成中的可用性。

这些挑战 (泛化程度有限、计算成本高昂和条件对齐能力弱) 共同导致许多现有方法难以大规模部署,从而激发了对更快、更可控的 3D 合成框架的需求。

快速、开源的 3D 医学影像合成

NV-Generate-CTMR 是 NVIDIA 的开源框架,旨在使高质量的 3D 医学影像合成在日常研发中切实可行。它不是将生成式建模视为一种针对特定任务的狭解决方案,而是提供了一个可复制的即用型平台,用于在各种临床场景中创建逼真的 CT 和 MRI 容积。

该框架是首个开源医学影像生成框架,可在单个模型内支持灵活的体素大小、可变体积尺寸和全身覆盖 (如下图所示) 。

这种灵活性使研究人员能够合成与真实临床方案相匹配的数据 (从裁剪的小区域到全分辨率、大视场的扫描) ,而无需为每种设置重新训练单独的模型。从这个意义上说,NV® Generate® CTMR 可作为医学成像的基础模型,适用于许多下游任务和解剖结构,而非局限于单个器官或配置。

高效、可持续的 AI 开发

通过公开共享模型和训练细节,NV-Generate-CTMR 遵循与其他开源基础模型相同的理念:重复使用而非重新训练。

与从头开始训练相比,微调现有模型的速度更快、能效更高,可缩短开发时间、降低耗电量,并减少对环境的影响。

引擎盖下

NV-Generate-CTMR 包含两种模型架构:

  • MAISI-v1 基于潜在降噪扩散概率模型 (DDPM) ,可生成具有更好多样性的随机图像
  • MAISI-v2 基于 潜在修正流,可将推理速度和图像生成速度提高 33 倍,且画质更高

详情发表在两篇技术论文中:MAISI-v2——《基于修正流与区域对比损失的加速3D高分辨率医学图像合成》 将在2026年AAAI人工智能大会上发表;以及MAISI——《用于合成成像的医学人工智能》 发表于2025年IEEE/CVF冬季计算机视觉应用会议(WACV)。

大规模快速推理

与以前的医学影像生成方法相比,NV- Generate-CTMR 中的 MAISI-v2 模型可实现出色的画质,推理速度更快,同时推理速度可美领先的视频生成模型。下表 1 对 NV Generate 模型系列进行了细分。

模型名称 ddpm-ct rflow-ct rflow-mr NV-Generate-MR-Brain
模态 CT CT MR MR
发布日期 2024 年 8 月 2025 年 3 月 2025 年 10 月 2026 年 3 月
主体区域 全身 全身 大脑、前列腺、腹部、乳房 全脑剔除的大脑 (用户可以指定)
架构 MAISI-v1 MAISI-v2 MAISI-v2 MAISI-v2
推理步骤 1000 30 30 30
最大体积 512x512x768 512x512x768 512x512x128 512x512x256
用例 仅生成图像;生成图像/ 掩码对 仅生成图像;生成图像/ 掩码对 仅生成图像 仅生成图像;交叉对比生成
优势 更好的图像多样性,全身覆盖 推理速度快,画质更出色,全身覆盖 推理速度快,覆盖多个身体区域 推理速度快,大脑区域图像质量更好
许可证 开源、商用 开源、商用 开源,仅限研究 开源、商用
表 1. NV 生成模型系列

用于大脑 MRI 的多对比度生成模型

脑 MRI 是磁共振成像最广泛的应用之一。为支持这一领域,我们发布了 NV-Generate-MR-Brain,这是一个基于 MAISI-v2 架构构建的生成式模型,并基于新发布的 MR+ RATE 数据集进行了训练。

该模型专为高保真的大脑 MRI 合成而设计,包含一个基础脑 MRI 模型,能够根据用户规格生成全脑或骨图像。它支持多种广泛使用的序列和对比,包括 T1+ 加权 (T1w) 、T2+ 加权 (T2w) 、FLAIR 和 SWI,可为研究和临床训练应用实现逼真且灵活的图像生成。

该模型支持分辨率高达 512* 512* 256 的高分辨率体积合成,接近临床和研究大脑 MRI 中使用的空间分辨率上限,可为医学成像工作流程生成逼真的全体积数据。

此外,NV-Generate-MR-Brain 还提供了一个 ControlNet 模块,用于生成指定的解剖结构或跨序列合成,使用户能够根据另一个 MRI 序列预测另一个序列。

实际应用和研究采用

由 NV-Generate-CTMR 生成的图像掩膜与肿瘤配对后,已被用作 NV Segment 的增强训练数据。除 NVIDIA 外,外部研究人员还在多种应用中使用或对这些模型进行微调,包括:

飞利浦 MR 业务负责人 Ioannis Panagiotelis 博士表示:“NV-Generate 提供的合成、解剖学上逼真的神经 MR 数据与 NV-Segment 的自动分割和 NV-Reason 的临床推理功能相结合,有助于我们更高效地设计和验证 AI 解决方案。这使放射科医生能够在不损害患者隐私的情况下,从更智能、更可解释的工作流程中受益

亲自尝试:合成 3D 医学影像

体验 NV-Generate-CTMR 的最快方法是自行运行。

在线演示: 无需 GPU,您可以浏览由 NVIDIA 托管的交互式浏览器演示。

命令行界面 (CLI): 在线演示展示了核心功能,但完整体验可通过 GitHub 仓库获取,其中包含预训练权重和开箱即用的推理脚本,可用于在本地生成完整的 3D CT 或 MRI 体积数据。克隆仓库并安装依赖项后,只需一条命令即可启动推理:

git clone https://github.com/NVIDIA-Medtech/NV-Generate-CTMR.git
 
 
cd NV-Generate-CTMR
export MONAI_DATA_DIRECTORY="./temp_work_dir"
network="rflow"
generate_version="rflow-ct"
python -m scripts.inference \
  -t ./configs/config_network_${network}.json \
  -i ./configs/config_infer.json \
  -e ./configs/environment_${generate_version}.json \
  --random-seed 0 \
  --version ${generate_version}

此命令可加载预训练的校正流模型,并将完整的 3D 医疗体直接合成到您的本地工作空间。然后,您可以可视化输出、检查配对的分割掩码,或将生成的数据插入您自己的训练和评估工作流。以上代码块的示例结果如下图 4 所示。

示例结果

无论是测试创意、扩充数据集,还是对模型进行基准测试,NV-Generate-CTMR 都能让您轻松地立即开始生成逼真的医学影像。

视频 1. 生成的 CT 和 MR 图像示例

开始使用

代码:https://github.com/NVIDIA-Medtech/NV-Generate-CTMR 

数据集(研究访问权限):https://huggingface.co/datasets/Forithmus/MR-RATE

模型检查点:

标签