构建实时 AI (例如聊天助手、copilot 和代理式工作流) 的开发者通常会受到词元-by-词元生成速度的限制。这限制了响应能力,增加了服务成本,并使流畅的交互式体验难以实现。
DiffusionGemma 由 Google DeepMind 创建,并经过优化,可在 NVIDIA 平台上高效运行,引入了一种新的文本生成方法,即并行生成词元,而不是一次生成一个 XX,从而实现更快、更高吞吐量的 AI 应用。该模型使用基于扩散的降噪技术,每步并行生成 256 个词元,在单个 NVIDIA DGX Spark 上可提供高达 150 个词元/ 秒的性能,在 NVIDIA DGX Station 上可提供高达 2000 个词元/ 秒的性能,和在单个 NVIDIA H100 Tensor Core GPU 上可提供高达 1000 个词元/ 秒的性能。
对于企业开发者而言,这种速度可转化为更低的服务成本、更高的并发性和响应速度更快的用户体验,而不会牺牲模型质量。DiffusionGemma 基于 Gemma 4 26B A4B MoE 架构构建,并针对低延迟、内存受限的推理进行了优化。
| 模型名称 | DiffusionGemma |
| 支持的模式 | 文本、图像 |
| 总参数 | 252 亿 |
| 活动参数 | 38 亿 |
| 上下文长度 | 高达 256K 词元 |
| 精度格式 | BF16、NVFP4 |
除了 NVIDIA 数据中心 GPU 之外,开发者还可以在各种客户端 GPU 和系统上享受出色性能。
| 平台 | 最适合 | 主要亮点 | 开始使用 |
|---|---|---|---|
| NVIDIA DGX Spark | 用于本地 AI 开发、自主智能体、AI 研究和原型设计的个人 AI 超级计算机 | NVIDIA GB10 Grace Blackwell 超级芯片、128 GB 统一内存、1 PFLOP 的 FP4 AI 计算能力,以及预安装的 NVIDIA AI 软件堆栈,可用于完全本地 OpenClaw 工作流 | 适用于 vLLM 和 Unsloth 的 DGX Spark 行动手册;部署指南;NVIDIA NeMo Automodel 微调指南;DGX Spark 上的 vLLM 指南 |
| NVIDIA DGX 工作站 | 用于构建、运行和扩展 AI 工作负载的桌边型 AI 超级计算机 | NVIDIA GB300 Grace Blackwell Ultra 超级芯片、NVIDIA AI 软件堆栈、748 GB 相干显存、高达 20 PFLOPS 的 FP4 计算能力,以及对高达 1T 参数的模型支持。在桌面上进行前沿 AI 开发、推理和智能体。 | DGX 工作站行动手册;DGX Station 上的 vLLM 指南 |
| NVIDIA RTX NVIDIA RTX PRO | 桌面 AI 应用、Windows 开发和本地推理 | 跨桌面和工作站环境为创作者和专业人士优化本地推理性能 | RTX 博客;RTX 上的 vLLM 指南 |
在 NVIDIA 上构建和原型设计
通过 Hugging Face Transformer 访问 DiffusionGemma,在 NVIDIA GeForce RTX 5090 D 或 DGX Spark 上进行初始测试和原型设计。如需在 DGX Spark、DGX Station 和 RTX PRO 上获得更高的吞吐量或并发多用户服务,请按照表 2 中的操作手册使用 vLLM。
借助 NVIDIA 硬件和软件的 Day 0 支持 (从本地原型设计到生产部署) ,开发者可以快速从实验转向实际应用。
NVIDIA GPU 加速端点
作为 NVIDIA 开发者计划的一部分,您可以通过 DiffusionGemma 开始构建,并在 build.nvidia.com 上免费访问 GPU 加速端点的原型设计。浏览器体验还可以连接到自定义数据源。
BF16 和 NVFP4
该模型现可在 Hugging Face 上使用 BF16 检查点,DiffusionGemma 的 NVFP4 量化检查点也可通过 NVIDIA Model Optimizer 获得。
使用 NVIDIA NIM 进行企业部署
NVIDIA NIM 借助 NVIDIA NIM,可以轻松地将 DiffusionGemma 从开发阶段部署到生产阶段。NIM 将该模型打包成一种经过优化的容器化推理微服务,具有性能调优、标准化 API 以及在本地、云端或混合环境中运行的灵活性。NIM 提供了一个兼容 OpenAI 的标准 API,用于向服务器发送推理请求。
- 下载容器。
- 启动 NIM 服务器。
$ export NIM_IMAGE_PATH = “nvcr.io/nim/google/diffusiongemma-26b-a4b-it:latest”$ docker run --gpus=all \ -e NGC_API_KEY=$NGC_API_KEY \ -v "$LOCAL_NIM_CACHE:/opt/nim/.cache" \ -p 8000:8000 \ ${NIM_IMAGE_PATH} |
- 发出测试请求并阅读完整的 NIM 文档。
from openai import OpenAI client = OpenAI( base_url="http://localhost:8000/v1", api_key="not-required" ) response = client.chat.completions.create( model="google/diffusiongemma-26b-a4b-it”, messages=[ {"role": "user", "content": "Write a poem about text diffusion"} ], max_tokens=256 ) print(response.choices[0].message.content) |
使用 NVIDIA NeMo AutoModel 完成首发日微调
微调指南和方法可通过 NVIDIA NeMo AutoModel 库 ( NVIDIA NeMo 框架的一部分) 获得,适合希望根据特定任务或领域调整模型的开发者。NeMo AutoModel 使用户能够直接在 HuggingFace 检查点上微调模型 ( LLM、VLM 和 DiffusionLM) ,无需转换,因此用户可以在最新的前沿模型上进行快速实验。
NVIDIA 是开源生态系统的积极贡献者,已根据开源许可证发布了数百个项目。NVIDIA 致力于开发 DiffusionGemma 等开放模型,以提高 AI 透明度,并使用户能够分享其在 AI 安全性和弹性方面的工作。
查看 DiffusionGemma 在 Hugging Face 或访问 build.nvidia.com,使用 NVIDIA API 免费测试。