高质量的 3D 医学成像数据是现代放射学 AI 的基础,但对这些数据的访问往往受到数据稀缺、隐私限制和专家标注成本高昂的限制。因此,训练可靠的 3D 医学成像模型经常会因数据集小巧、狭窄且难以共享而成为瓶颈,从而限制了模型的稳健性和泛化。
为帮助团队克服这些挑战,NVIDIA 于 2024 年推出了适用于合成成像的医学 AI (MAISI) ,这是一种先进的生成式模型,可通过像素级解剖学分割合成高分辨率 3D CT 体,以保护隐私、保护数据增强和研究。
NV-Generate-CTMR 基于 MAISI 架构系列 (包括采用潜在修正流的 MAISI-v2) 构建,可提供用于生成合成 CT 和 MRI 的开源端到端框架。它使研究人员和开发者能够大规模生成逼真的 3D 体积和配对分割,将其直接集成到训练流程中,并加速下游医学成像 AI 开发。
本博文介绍了 NV-Generate-MR-Brain,这是一种用于合成生成人脑解剖学和结构分割的新模型,基于 MAISI 架构构建,并将其扩展为合成 3D 医学成像生成的可扩展、开放工作流。
打破 3D 医学影像数据瓶颈
NV-Generate-MR-Brain 由苏黎世大学、Medipol 大学医院、Forithmus 和 NVIDIA 联合发布的多模态 MR-RATE 数据集训练而成。该数据集在广受认可的 CT-RATE 数据集和多模态基础模型的基础上构建,基于 MR-RATE 数据集。
MR-RATE 是全球最大的开源多模态 MRI 数据集,包含来自 83000 多名患者的 10 万例脑部 MRI 研究 (总计约 70 万份) ,每份研究都与去识别放射学报告、临床和扫描仪数字成像和医学通信 (DICOM) 元数据配对。创建该数据集的目的是为开发理解成像和临床环境的研究和商业 AI 系统奠定大规模的开放基础。
MR-RATE 可捕捉现实世界神经成像实践的多样性,涵盖不同的扫描仪类型、成像协议和神经病理。MR-RATE 数据集以开放的 CC-BY-NC 许可证发布,适用于通过 Forithmus 获得商业许可证的研究机构。
按设计开源
该库包括端到端推理代码、预训练权重和训练配置,使团队能够立即开始使用,而无需从头开始重建复杂的工作流。用户可以根据自己的数据集生成开箱即用的合成图像或微调模型,以适应新的解剖结构、扫描仪或模态,从而显著降低技术和计算障碍。
在此项目中,代码、数据和模型等所有要素均随开源许可证一起发布,其中大多数模型均在 NVIDIA 开放模型许可证下发布。这些模型的推理可在 NVIDIA RTX GPU 上免版税运行,以生成图像,根据新数据或新用例微调模型。
为什么图像生成对于医疗 AI 至关重要
医学影像合成已迅速成为医疗 AI 开发的核心能力。团队使用合成数据来增强有限的训练集,在 CT 和 MRI 等成像模式之间转换,模拟罕见病理学,并在不暴露真实患者信息的情况下实现隐私保护和数据共享。
通过生成逼真、解剖学一致性的 3D 立体 (通常与分割标签搭配使用) ,合成数据可帮助模型在标记样本稀缺时更好地进行泛化,并在站点、扫描仪和协议之间实现一致的基准测试。
随着临床成像变得越来越个性化、异构和多模态,可扩展和可控的生成框架不再是可选的,它们对于构建强大的医疗 AI 系统至关重要。
现有医学影像合成方法的局限性
多年来,医学影像合成方法主要分为三类:直接回归模型、基于生成式对抗网络 (GAN) 的方法,以及最近通过迭代降噪生成图像的扩散模型。
其中,扩散模型已成为最新技术,可提供更高的稳定性,并能够对复杂的解剖分布进行建模。然而,在实际临床工作流程中应用扩散模型仍然具有挑战性。
首先,现实世界的医学影像在扫描仪、采集协议和体素间距方面差异很大,这使得在窄数据集上训练的模型难以泛化。
其次,CT 和 MRI 本身是 3D 模态,但完整的 3D 扩散模型在时间和 GPU 显存方面的计算成本很高。
第三,即使提供了调节信号 (例如口罩或解剖学提示) ,生成的输出也可能无法忠实地遵循这些输入,从而限制了其在受控或特定任务生成中的可用性。
这些挑战 (泛化程度有限、计算成本高昂和条件对齐能力弱) 共同导致许多现有方法难以大规模部署,从而激发了对更快、更可控的 3D 合成框架的需求。
快速、开源的 3D 医学影像合成
NV-Generate-CTMR 是 NVIDIA 的开源框架,旨在使高质量的 3D 医学影像合成在日常研发中切实可行。它不是将生成式建模视为一种针对特定任务的狭解决方案,而是提供了一个可复制的即用型平台,用于在各种临床场景中创建逼真的 CT 和 MRI 容积。
该框架是首个开源医学影像生成框架,可在单个模型内支持灵活的体素大小、可变体积尺寸和全身覆盖 (如下图所示) 。
这种灵活性使研究人员能够合成与真实临床方案相匹配的数据 (从裁剪的小区域到全分辨率、大视场的扫描) ,而无需为每种设置重新训练单独的模型。从这个意义上说,NV® Generate® CTMR 可作为医学成像的基础模型,适用于许多下游任务和解剖结构,而非局限于单个器官或配置。
高效、可持续的 AI 开发
通过公开共享模型和训练细节,NV-Generate-CTMR 遵循与其他开源基础模型相同的理念:重复使用而非重新训练。
与从头开始训练相比,微调现有模型的速度更快、能效更高,可缩短开发时间、降低耗电量,并减少对环境的影响。
引擎盖下
NV-Generate-CTMR 包含两种模型架构:
- MAISI-v1 基于潜在降噪扩散概率模型 (DDPM) ,可生成具有更好多样性的随机图像
- MAISI-v2 基于 潜在修正流,可将推理速度和图像生成速度提高 33 倍,且画质更高
详情发表在两篇技术论文中:MAISI-v2——《基于修正流与区域对比损失的加速3D高分辨率医学图像合成》 将在2026年AAAI人工智能大会上发表;以及MAISI——《用于合成成像的医学人工智能》 发表于2025年IEEE/CVF冬季计算机视觉应用会议(WACV)。
大规模快速推理
与以前的医学影像生成方法相比,NV- Generate-CTMR 中的 MAISI-v2 模型可实现出色的画质,推理速度更快,同时推理速度可美领先的视频生成模型。下表 1 对 NV Generate 模型系列进行了细分。
| 模型名称 | ddpm-ct | rflow-ct | rflow-mr | NV-Generate-MR-Brain |
| 模态 | CT | CT | MR | MR |
| 发布日期 | 2024 年 8 月 | 2025 年 3 月 | 2025 年 10 月 | 2026 年 3 月 |
| 主体区域 | 全身 | 全身 | 大脑、前列腺、腹部、乳房 | 全脑剔除的大脑 (用户可以指定) |
| 架构 | MAISI-v1 | MAISI-v2 | MAISI-v2 | MAISI-v2 |
| 推理步骤 | 1000 | 30 | 30 | 30 |
| 最大体积 | 512x512x768 | 512x512x768 | 512x512x128 | 512x512x256 |
| 用例 | 仅生成图像;生成图像/ 掩码对 | 仅生成图像;生成图像/ 掩码对 | 仅生成图像 | 仅生成图像;交叉对比生成 |
| 优势 | 更好的图像多样性,全身覆盖 | 推理速度快,画质更出色,全身覆盖 | 推理速度快,覆盖多个身体区域 | 推理速度快,大脑区域图像质量更好 |
| 许可证 | 开源、商用 | 开源、商用 | 开源,仅限研究 | 开源、商用 |
用于大脑 MRI 的多对比度生成模型
脑 MRI 是磁共振成像最广泛的应用之一。为支持这一领域,我们发布了 NV-Generate-MR-Brain,这是一个基于 MAISI-v2 架构构建的生成式模型,并基于新发布的 MR+ RATE 数据集进行了训练。
该模型专为高保真的大脑 MRI 合成而设计,包含一个基础脑 MRI 模型,能够根据用户规格生成全脑或骨图像。它支持多种广泛使用的序列和对比,包括 T1+ 加权 (T1w) 、T2+ 加权 (T2w) 、FLAIR 和 SWI,可为研究和临床训练应用实现逼真且灵活的图像生成。
该模型支持分辨率高达 512* 512* 256 的高分辨率体积合成,接近临床和研究大脑 MRI 中使用的空间分辨率上限,可为医学成像工作流程生成逼真的全体积数据。
此外,NV-Generate-MR-Brain 还提供了一个 ControlNet 模块,用于生成指定的解剖结构或跨序列合成,使用户能够根据另一个 MRI 序列预测另一个序列。
实际应用和研究采用
由 NV-Generate-CTMR 生成的图像掩膜与肿瘤配对后,已被用作 NV Segment 的增强训练数据。除 NVIDIA 外,外部研究人员还在多种应用中使用或对这些模型进行微调,包括:
- 零样本异常检测
- 肺癌分类
- 前列腺 MRI 病变分类
- MR 到 CT 合成
- 文本提示 CT 和 MRI 肿瘤分割
- 大脑扩散核磁共振成像 (MRI)
- 脑肿瘤 MRI 合成
- 文本到 CT 生成
- 文本到大脑的 MRI 生成
飞利浦 MR 业务负责人 Ioannis Panagiotelis 博士表示:“NV-Generate 提供的合成、解剖学上逼真的神经 MR 数据与 NV-Segment 的自动分割和 NV-Reason 的临床推理功能相结合,有助于我们更高效地设计和验证 AI 解决方案。这使放射科医生能够在不损害患者隐私的情况下,从更智能、更可解释的工作流程中受益
亲自尝试:合成 3D 医学影像
体验 NV-Generate-CTMR 的最快方法是自行运行。
在线演示: 无需 GPU,您可以浏览由 NVIDIA 托管的交互式浏览器演示。
命令行界面 (CLI): 在线演示展示了核心功能,但完整体验可通过 GitHub 仓库获取,其中包含预训练权重和开箱即用的推理脚本,可用于在本地生成完整的 3D CT 或 MRI 体积数据。克隆仓库并安装依赖项后,只需一条命令即可启动推理:
git clone https://github.com/NVIDIA-Medtech/NV-Generate-CTMR.gitcd NV-Generate-CTMRexport MONAI_DATA_DIRECTORY="./temp_work_dir"network="rflow"generate_version="rflow-ct"python -m scripts.inference \ -t ./configs/config_network_${network}.json \ -i ./configs/config_infer.json \ -e ./configs/environment_${generate_version}.json \ --random-seed 0 \ --version ${generate_version} |
此命令可加载预训练的校正流模型,并将完整的 3D 医疗体直接合成到您的本地工作空间。然后,您可以可视化输出、检查配对的分割掩码,或将生成的数据插入您自己的训练和评估工作流。以上代码块的示例结果如下图 4 所示。
示例结果
无论是测试创意、扩充数据集,还是对模型进行基准测试,NV-Generate-CTMR 都能让您轻松地立即开始生成逼真的医学影像。
开始使用
代码:https://github.com/NVIDIA-Medtech/NV-Generate-CTMR
数据集(研究访问权限):https://huggingface.co/datasets/Forithmus/MR-RATE
模型检查点: