精选

在 NVIDIA 上运行 DiffusionGemma,实现开发者就绪型高吞吐量文本生成

构建实时 AI (例如聊天助手、copilot 和代理式工作流) 的开发者通常会受到词元-by-词元生成速度的限制。这限制了响应能力,增加了服务成本,并使流畅的交互式体验难以实现。

DiffusionGemma 由 Google DeepMind 创建,并经过优化,可在 NVIDIA 平台上高效运行,引入了一种新的文本生成方法,即并行生成词元,而不是一次生成一个 XX,从而实现更快、更高吞吐量的 AI 应用。该模型使用基于扩散的降噪技术,每步并行生成 256 个词元,在单个 NVIDIA DGX Spark 上可提供高达 150 个词元/ 秒的性能,在 NVIDIA DGX Station 上可提供高达 2000 个词元/ 秒的性能,和在单个 NVIDIA H100 Tensor Core GPU 上可提供高达 1000 个词元/ 秒的性能。

对于企业开发者而言,这种速度可转化为更低的服务成本、更高的并发性和响应速度更快的用户体验,而不会牺牲模型质量。DiffusionGemma 基于 Gemma 4 26B A4B MoE 架构构建,并针对低延迟、内存受限的推理进行了优化。

模型名称 DiffusionGemma
支持的模式 文本、图像
总参数 252 亿
活动参数 38 亿
上下文长度 高达 256K 词元
精度格式 BF16、NVFP4
表 1. DiffusionGemma 概述,总结模态、参数大小和支持的上下文长度

除了 NVIDIA 数据中心 GPU 之外,开发者还可以在各种客户端 GPU 和系统上享受出色性能。

平台 最适合 主要亮点 开始使用
NVIDIA DGX Spark 用于本地 AI 开发、自主智能体、AI 研究和原型设计的个人 AI 超级计算机 NVIDIA GB10 Grace Blackwell 超级芯片、128 GB 统一内存、1 PFLOP 的 FP4 AI 计算能力,以及预安装的 NVIDIA AI 软件堆栈,可用于完全本地 OpenClaw 工作流 适用于 vLLM 和 Unsloth 的 DGX Spark 行动手册;部署指南;NVIDIA NeMo Automodel 微调指南;DGX Spark 上的 vLLM 指南
NVIDIA DGX 工作站 用于构建、运行和扩展 AI 工作负载的桌边型 AI 超级计算机 NVIDIA GB300 Grace Blackwell Ultra 超级芯片、NVIDIA AI 软件堆栈、748 GB 相干显存、高达 20 PFLOPS 的 FP4 计算能力,以及对高达 1T 参数的模型支持。在桌面上进行前沿 AI 开发、推理和智能体。 DGX 工作站行动手册DGX Station 上的 vLLM 指南
NVIDIA RTX NVIDIA RTX PRO 桌面 AI 应用、Windows 开发和本地推理 跨桌面和工作站环境为创作者和专业人士优化本地推理性能 RTX 博客RTX 上的 vLLM 指南
表 2. 跨 NVIDIA 平台的本地部署选项比较,重点介绍主要用例、关键功能和推荐获取+ 开始为 DGX Spark、DGX 工作站和 RTX™ RTX PRO 系统提供资源

在 NVIDIA 上构建和原型设计

通过 Hugging Face Transformer 访问 DiffusionGemma,在 NVIDIA GeForce RTX 5090 D 或 DGX Spark 上进行初始测试和原型设计。如需在 DGX Spark、DGX Station 和 RTX PRO 上获得更高的吞吐量或并发多用户服务,请按照表 2 中的操作手册使用 vLLM。

借助 NVIDIA 硬件和软件的 Day 0 支持 (从本地原型设计到生产部署) ,开发者可以快速从实验转向实际应用。

NVIDIA GPU 加速端点

作为 NVIDIA 开发者计划的一部分,您可以通过 DiffusionGemma 开始构建,并在 build.nvidia.com 上免费访问 GPU 加速端点的原型设计。浏览器体验还可以连接到自定义数据源。

BF16 和 NVFP4

该模型现可在 Hugging Face 上使用 BF16 检查点,DiffusionGemma 的 NVFP4 量化检查点也可通过 NVIDIA Model Optimizer 获得。

使用 NVIDIA NIM 进行企业部署

NVIDIA NIM 借助 NVIDIA NIM,可以轻松地将 DiffusionGemma 从开发阶段部署到生产阶段。NIM 将该模型打包成一种经过优化的容器化推理微服务,具有性能调优、标准化 API 以及在本地、云端或混合环境中运行的灵活性。NIM 提供了一个兼容 OpenAI 的标准 API,用于向服务器发送推理请求。

  1. 下载容器
  2. 启动 NIM 服务器。
$ export NIM_IMAGE_PATH = “nvcr.io/nim/google/diffusiongemma-26b-a4b-it:latest”
$ docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \
  -p 8000:8000 \
 ${NIM_IMAGE_PATH}
  1. 发出测试请求并阅读完整的 NIM 文档
from openai import OpenAI
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="not-required"
)
response = client.chat.completions.create(
    model="google/diffusiongemma-26b-a4b-it”,
    messages=[
        {"role": "user", "content": "Write a poem about text diffusion"}
    ],
    max_tokens=256
)
print(response.choices[0].message.content)

使用 NVIDIA NeMo AutoModel 完成首发日微调

微调指南和方法可通过 NVIDIA NeMo AutoModel 库 ( NVIDIA NeMo 框架的一部分) 获得,适合希望根据特定任务或领域调整模型的开发者。NeMo AutoModel 使用户能够直接在 HuggingFace 检查点上微调模型 ( LLM、VLM 和 DiffusionLM) ,无需转换,因此用户可以在最新的前沿模型上进行快速实验。

NVIDIA 是开源生态系统的积极贡献者,已根据开源许可证发布了数百个项目。NVIDIA 致力于开发 DiffusionGemma 等开放模型,以提高 AI 透明度,并使用户能够分享其在 AI 安全性和弹性方面的工作。

查看 DiffusionGemma 在 Hugging Face 或访问 build.nvidia.com,使用 NVIDIA API 免费测试。

标签