在 NVIDIA 上运行 DiffusionGemma，实现开发者就绪型高吞吐量文本生成

构建实时 AI (例如聊天助手、copilot 和代理式工作流) 的开发者通常会受到词元-by-词元生成速度的限制。这限制了响应能力，增加了服务成本，并使流畅的交互式体验难以实现。

DiffusionGemma 由 Google DeepMind 创建，并经过优化，可在 NVIDIA 平台上高效运行，引入了一种新的文本生成方法，即并行生成词元，而不是一次生成一个 XX，从而实现更快、更高吞吐量的 AI 应用。该模型使用基于扩散的降噪技术，每步并行生成 256 个词元，在单个 NVIDIA DGX Spark 上可提供高达 150 个词元/ 秒的性能，在 NVIDIA DGX Station 上可提供高达 2000 个词元/ 秒的性能，和在单个 NVIDIA H100 Tensor Core GPU 上可提供高达 1000 个词元/ 秒的性能。

对于企业开发者而言，这种速度可转化为更低的服务成本、更高的并发性和响应速度更快的用户体验，而不会牺牲模型质量。DiffusionGemma 基于 Gemma 4 26B A4B MoE 架构构建，并针对低延迟、内存受限的推理进行了优化。

模型名称	DiffusionGemma
支持的模式	文本、图像
总参数	252 亿
活动参数	38 亿
上下文长度	高达 256K 词元
精度格式	BF16、NVFP4

表 1. DiffusionGemma 概述，总结模态、参数大小和支持的上下文长度

除了 NVIDIA 数据中心 GPU 之外，开发者还可以在各种客户端 GPU 和系统上享受出色性能。

平台	最适合	主要亮点	开始使用
NVIDIA DGX Spark	用于本地 AI 开发、自主智能体、AI 研究和原型设计的个人 AI 超级计算机	NVIDIA GB10 Grace Blackwell 超级芯片、128 GB 统一内存、1 PFLOP 的 FP4 AI 计算能力，以及预安装的 NVIDIA AI 软件堆栈，可用于完全本地 OpenClaw 工作流	适用于 vLLM 和 Unsloth 的 DGX Spark 行动手册；部署指南；NVIDIA NeMo Automodel 微调指南；DGX Spark 上的 vLLM 指南
NVIDIA DGX 工作站	用于构建、运行和扩展 AI 工作负载的桌边型 AI 超级计算机	NVIDIA GB300 Grace Blackwell Ultra 超级芯片、NVIDIA AI 软件堆栈、748 GB 相干显存、高达 20 PFLOPS 的 FP4 计算能力，以及对高达 1T 参数的模型支持。在桌面上进行前沿 AI 开发、推理和智能体。	DGX 工作站行动手册；DGX Station 上的 vLLM 指南
NVIDIA RTX NVIDIA RTX PRO	桌面 AI 应用、Windows 开发和本地推理	跨桌面和工作站环境为创作者和专业人士优化本地推理性能	RTX 博客；RTX 上的 vLLM 指南

表 2. 跨 NVIDIA 平台的本地部署选项比较，重点介绍主要用例、关键功能和推荐获取+ 开始为 DGX Spark、DGX 工作站和 RTX™ RTX PRO 系统提供资源

在 NVIDIA 上构建和原型设计

通过 Hugging Face Transformer 访问 DiffusionGemma，在 NVIDIA GeForce RTX 5090 D 或 DGX Spark 上进行初始测试和原型设计。如需在 DGX Spark、DGX Station 和 RTX PRO 上获得更高的吞吐量或并发多用户服务，请按照表 2 中的操作手册使用 vLLM。

借助 NVIDIA 硬件和软件的 Day 0 支持 (从本地原型设计到生产部署) ，开发者可以快速从实验转向实际应用。

NVIDIA GPU 加速端点

作为 NVIDIA 开发者计划的一部分，您可以通过 DiffusionGemma 开始构建，并在 build.nvidia.com 上免费访问 GPU 加速端点的原型设计。浏览器体验还可以连接到自定义数据源。

BF16 和 NVFP4

该模型现可在 Hugging Face 上使用 BF16 检查点，DiffusionGemma 的 NVFP4 量化检查点也可通过 NVIDIA Model Optimizer 获得。

使用 NVIDIA NIM 进行企业部署

NVIDIA NIM 借助 NVIDIA NIM，可以轻松地将 DiffusionGemma 从开发阶段部署到生产阶段。NIM 将该模型打包成一种经过优化的容器化推理微服务，具有性能调优、标准化 API 以及在本地、云端或混合环境中运行的灵活性。NIM 提供了一个兼容 OpenAI 的标准 API，用于向服务器发送推理请求。

下载容器。
启动 NIM 服务器。

$ export NIM_IMAGE_PATH = “nvcr.io/nim/google/diffusiongemma-26b-a4b-it:latest”
$ docker run --gpus=all \ 
  -e NGC_API_KEY=$NGC_API_KEY \ 
  -v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \ 
  -p 8000:8000 \ 
 ${NIM_IMAGE_PATH}

发出测试请求并阅读完整的 NIM 文档。

from openai import OpenAI 
client = OpenAI( 
    base_url="http://localhost:8000/v1", 
    api_key="not-required" 
) 
response = client.chat.completions.create( 
    model="google/diffusiongemma-26b-a4b-it”,
    messages=[ 
        {"role": "user", "content": "Write a poem about text diffusion"} 
    ], 
    max_tokens=256 
) 
print(response.choices[0].message.content) 

使用 NVIDIA NeMo AutoModel 完成首发日微调

微调指南和方法可通过 NVIDIA NeMo AutoModel 库 ( NVIDIA NeMo 框架的一部分) 获得，适合希望根据特定任务或领域调整模型的开发者。NeMo AutoModel 使用户能够直接在 HuggingFace 检查点上微调模型 ( LLM、VLM 和 DiffusionLM) ，无需转换，因此用户可以在最新的前沿模型上进行快速实验。

NVIDIA 是开源生态系统的积极贡献者，已根据开源许可证发布了数百个项目。NVIDIA 致力于开发 DiffusionGemma 等开放模型，以提高 AI 透明度，并使用户能够分享其在 AI 安全性和弹性方面的工作。

查看 DiffusionGemma 在 Hugging Face 或访问 build.nvidia.com，使用 NVIDIA API 免费测试。

在 NVIDIA 上运行 DiffusionGemma，实现开发者就绪型高吞吐量文本生成

在 NVIDIA 上构建和原型设计

使用 NVIDIA NIM 进行企业部署

使用 NVIDIA NeMo AutoModel 完成首发日微调

标签

关于作者