模拟/建模/设计

大规模合成逼真的 3D 医学影像，提供经过预训练的模型

2026年 5月 22日

作者：Can Zhao, Ibrahim Ethem Hamamcı, Marc Edgar 和 Monty Zarrouk

高质量的 3D 医学成像数据是现代放射学 AI 的基础，但对这些数据的访问往往受到数据稀缺、隐私限制和专家标注成本高昂的限制。因此，训练可靠的 3D 医学成像模型经常会因数据集小巧、狭窄且难以共享而成为瓶颈，从而限制了模型的稳健性和泛化。

为帮助团队克服这些挑战，NVIDIA 于 2024 年推出了适用于合成成像的医学 AI (MAISI) ，这是一种先进的生成式模型，可通过像素级解剖学分割合成高分辨率 3D CT 体，以保护隐私、保护数据增强和研究。

NV-Generate-CTMR 基于 MAISI 架构系列 (包括采用潜在修正流的 MAISI-v2) 构建，可提供用于生成合成 CT 和 MRI 的开源端到端框架。它使研究人员和开发者能够大规模生成逼真的 3D 体积和配对分割，将其直接集成到训练流程中，并加速下游医学成像 AI 开发。

本博文介绍了 NV-Generate-MR-Brain，这是一种用于合成生成人脑解剖学和结构分割的新模型，基于 MAISI 架构构建，并将其扩展为合成 3D 医学成像生成的可扩展、开放工作流。

打破 3D 医学影像数据瓶颈

NV-Generate-MR-Brain 由苏黎世大学、Medipol 大学医院、Forithmus 和 NVIDIA 联合发布的多模态 MR-RATE 数据集训练而成。该数据集在广受认可的 CT-RATE 数据集和多模态基础模型的基础上构建，基于 MR-RATE 数据集。

MR-RATE 是全球最大的开源多模态 MRI 数据集，包含来自 83000 多名患者的 10 万例脑部 MRI 研究 (总计约 70 万份) ，每份研究都与去识别放射学报告、临床和扫描仪数字成像和医学通信 (DICOM) 元数据配对。创建该数据集的目的是为开发理解成像和临床环境的研究和商业 AI 系统奠定大规模的开放基础。

MR-RATE 可捕捉现实世界神经成像实践的多样性，涵盖不同的扫描仪类型、成像协议和神经病理。MR-RATE 数据集以开放的 CC-BY-NC 许可证发布，适用于通过 Forithmus 获得商业许可证的研究机构。

按设计开源

该库包括端到端推理代码、预训练权重和训练配置，使团队能够立即开始使用，而无需从头开始重建复杂的工作流。用户可以根据自己的数据集生成开箱即用的合成图像或微调模型，以适应新的解剖结构、扫描仪或模态，从而显著降低技术和计算障碍。

在此项目中，代码、数据和模型等所有要素均随开源许可证一起发布，其中大多数模型均在 NVIDIA 开放模型许可证下发布。这些模型的推理可在 NVIDIA RTX GPU 上免版税运行，以生成图像，根据新数据或新用例微调模型。

为什么图像生成对于医疗 AI 至关重要

医学影像合成已迅速成为医疗 AI 开发的核心能力。团队使用合成数据来增强有限的训练集，在 CT 和 MRI 等成像模式之间转换，模拟罕见病理学，并在不暴露真实患者信息的情况下实现隐私保护和数据共享。

通过生成逼真、解剖学一致性的 3D 立体 (通常与分割标签搭配使用) ，合成数据可帮助模型在标记样本稀缺时更好地进行泛化，并在站点、扫描仪和协议之间实现一致的基准测试。

随着临床成像变得越来越个性化、异构和多模态，可扩展和可控的生成框架不再是可选的，它们对于构建强大的医疗 AI 系统至关重要。

现有医学影像合成方法的局限性

多年来，医学影像合成方法主要分为三类：直接回归模型、基于生成式对抗网络 (GAN) 的方法，以及最近通过迭代降噪生成图像的扩散模型。

其中，扩散模型已成为最新技术，可提供更高的稳定性，并能够对复杂的解剖分布进行建模。然而，在实际临床工作流程中应用扩散模型仍然具有挑战性。

首先，现实世界的医学影像在扫描仪、采集协议和体素间距方面差异很大，这使得在窄数据集上训练的模型难以泛化。

其次，CT 和 MRI 本身是 3D 模态，但完整的 3D 扩散模型在时间和 GPU 显存方面的计算成本很高。

第三，即使提供了调节信号 (例如口罩或解剖学提示) ，生成的输出也可能无法忠实地遵循这些输入，从而限制了其在受控或特定任务生成中的可用性。

这些挑战 (泛化程度有限、计算成本高昂和条件对齐能力弱) 共同导致许多现有方法难以大规模部署，从而激发了对更快、更可控的 3D 合成框架的需求。

快速、开源的 3D 医学影像合成

NV-Generate-CTMR 是 NVIDIA 的开源框架，旨在使高质量的 3D 医学影像合成在日常研发中切实可行。它不是将生成式建模视为一种针对特定任务的狭解决方案，而是提供了一个可复制的即用型平台，用于在各种临床场景中创建逼真的 CT 和 MRI 容积。

该框架是首个开源医学影像生成框架，可在单个模型内支持灵活的体素大小、可变体积尺寸和全身覆盖 (如下图所示) 。

这种灵活性使研究人员能够合成与真实临床方案相匹配的数据 (从裁剪的小区域到全分辨率、大视场的扫描) ，而无需为每种设置重新训练单独的模型。从这个意义上说，NV® Generate® CTMR 可作为医学成像的基础模型，适用于许多下游任务和解剖结构，而非局限于单个器官或配置。

高效、可持续的 AI 开发

通过公开共享模型和训练细节，NV-Generate-CTMR 遵循与其他开源基础模型相同的理念：重复使用而非重新训练。

与从头开始训练相比，微调现有模型的速度更快、能效更高，可缩短开发时间、降低耗电量，并减少对环境的影响。

引擎盖下

NV-Generate-CTMR 包含两种模型架构：

MAISI-v1 基于潜在降噪扩散概率模型 (DDPM) ，可生成具有更好多样性的随机图像
MAISI-v2 基于 潜在修正流，可将推理速度和图像生成速度提高 33 倍，且画质更高

详情发表在两篇技术论文中：MAISI-v2——《基于修正流与区域对比损失的加速3D高分辨率医学图像合成》将在2026年AAAI人工智能大会上发表；以及MAISI——《用于合成成像的医学人工智能》发表于2025年IEEE/CVF冬季计算机视觉应用会议（WACV）。

大规模快速推理

与以前的医学影像生成方法相比，NV- Generate-CTMR 中的 MAISI-v2 模型可实现出色的画质，推理速度更快，同时推理速度可美领先的视频生成模型。下表 1 对 NV Generate 模型系列进行了细分。

模型名称	ddpm-ct	rflow-ct	rflow-mr	NV-Generate-MR-Brain
模态	CT	CT	MR	MR
发布日期	2024 年 8 月	2025 年 3 月	2025 年 10 月	2026 年 3 月
主体区域	全身	全身	大脑、前列腺、腹部、乳房	全脑剔除的大脑 (用户可以指定)
架构	MAISI-v1	MAISI-v2	MAISI-v2	MAISI-v2
推理步骤	1000	30	30	30
最大体积	512x512x768	512x512x768	512x512x128	512x512x256
用例	仅生成图像；生成图像/ 掩码对	仅生成图像；生成图像/ 掩码对	仅生成图像	仅生成图像；交叉对比生成
优势	更好的图像多样性，全身覆盖	推理速度快，画质更出色，全身覆盖	推理速度快，覆盖多个身体区域	推理速度快，大脑区域图像质量更好
许可证	开源、商用	开源、商用	开源，仅限研究	开源、商用

表 1. NV 生成模型系列

用于大脑 MRI 的多对比度生成模型

脑 MRI 是磁共振成像最广泛的应用之一。为支持这一领域，我们发布了 NV-Generate-MR-Brain，这是一个基于 MAISI-v2 架构构建的生成式模型，并基于新发布的 MR+ RATE 数据集进行了训练。

该模型专为高保真的大脑 MRI 合成而设计，包含一个基础脑 MRI 模型，能够根据用户规格生成全脑或骨图像。它支持多种广泛使用的序列和对比，包括 T1+ 加权 (T1w) 、T2+ 加权 (T2w) 、FLAIR 和 SWI，可为研究和临床训练应用实现逼真且灵活的图像生成。

该模型支持分辨率高达 512* 512* 256 的高分辨率体积合成，接近临床和研究大脑 MRI 中使用的空间分辨率上限，可为医学成像工作流程生成逼真的全体积数据。

此外，NV-Generate-MR-Brain 还提供了一个 ControlNet 模块，用于生成指定的解剖结构或跨序列合成，使用户能够根据另一个 MRI 序列预测另一个序列。

实际应用和研究采用

由 NV-Generate-CTMR 生成的图像掩膜与肿瘤配对后，已被用作 NV Segment 的增强训练数据。除 NVIDIA 外，外部研究人员还在多种应用中使用或对这些模型进行微调，包括：

飞利浦 MR 业务负责人 Ioannis Panagiotelis 博士表示：“NV-Generate 提供的合成、解剖学上逼真的神经 MR 数据与 NV-Segment 的自动分割和 NV-Reason 的临床推理功能相结合，有助于我们更高效地设计和验证 AI 解决方案。这使放射科医生能够在不损害患者隐私的情况下，从更智能、更可解释的工作流程中受益

亲自尝试：合成 3D 医学影像

体验 NV-Generate-CTMR 的最快方法是自行运行。

在线演示： 无需 GPU，您可以浏览由 NVIDIA 托管的交互式浏览器演示。

命令行界面 (CLI)： 在线演示展示了核心功能，但完整体验可通过 GitHub 仓库获取，其中包含预训练权重和开箱即用的推理脚本，可用于在本地生成完整的 3D CT 或 MRI 体积数据。克隆仓库并安装依赖项后，只需一条命令即可启动推理：

git clone https://github.com/NVIDIA-Medtech/NV-Generate-CTMR.git
 
 
cd NV-Generate-CTMR
export MONAI_DATA_DIRECTORY="./temp_work_dir"
network="rflow"
generate_version="rflow-ct"
python -m scripts.inference \
  -t ./configs/config_network_${network}.json \
  -i ./configs/config_infer.json \
  -e ./configs/environment_${generate_version}.json \
  --random-seed 0 \
  --version ${generate_version}

此命令可加载预训练的校正流模型，并将完整的 3D 医疗体直接合成到您的本地工作空间。然后，您可以可视化输出、检查配对的分割掩码，或将生成的数据插入您自己的训练和评估工作流。以上代码块的示例结果如下图 4 所示。

示例结果

无论是测试创意、扩充数据集，还是对模型进行基准测试，NV-Generate-CTMR 都能让您轻松地立即开始生成逼真的医学影像。

视频 1. 生成的 CT 和 MR 图像示例

开始使用

代码：https://github.com/NVIDIA-Medtech/NV-Generate-CTMR

数据集（研究访问权限）：https://huggingface.co/datasets/Forithmus/MR-RATE

模型检查点：

关于作者

Can Zhao 自 2019 年以来一直是 NVIDIA 的应用研究科学家，专注于医学成像的深度学习。她专门从事基于深度学习的医学图像合成。灿于 2013 年获得清华大学半导体物理专业学士学位。随后，她将兴趣转向医学影像学。2021 年，她与 Jerry Prince 博士合作，获得了约翰斯·霍普金斯大学电气和计算机工程博士学位。她于 2020 年至 2023 年担任医学成像中的 MICCAI 模拟与合成（SASHIMI）研讨会组委会成员，并担任 2024 年光学仪器工程师学会（SPIE）医学成像会议主席和 2024 年国际医学图像计算和计算机辅助干预会议区域主席。

查看 Can Zhao 所有文章

近日，他与他人共同创立了 Forithmus，这是一家在顶级风险投资人的支持下开发通用医疗智能的公司，目前他在这家公司担任首席执行官。他学习了医学，同时还主修了计算机科学，后来在 ETH AI 中心和苏黎世大学开始了他的 MD-PhD。

查看 Ibrahim Ethem Hamamcı 所有文章

Marc Edgar 是 NVIDIA 的医疗设备高级联盟经理，帮助各种规模的医疗保健公司发展，以提高质量、可负担性和获得医疗保健的机会。在加入 NVIDIA 之前，他在 General Ele CTR ic 工作了超过 25 年。他开发并商业化了许多 AI / ML 算法，并在医疗保健和工业领域拥有 16 项专利。

查看 Marc Edgar 所有文章

Monty Zarrouk 是 NVIDIA 医疗 AI 和 NVIDIA MONAI 的产品营销主管。他在 HealthTech 产品营销领域拥有二十年的经验，曾为领先的科技公司制定进入市场战略。最近，他担任 AWS 的医疗健康营销主管，负责指导 AWS 医疗健康解决方案的全球营销策略和产品组合定位。他拥有麦吉尔大学工商管理硕士学位和科罗拉多大学丹佛分校电气工程学士学位。

查看 Monty Zarrouk 所有文章