精选

借助 Gemma 4,让 AI 更贴近边缘和设备端

随着最新 Gemma 4 多模态和多语言模型的推出,Gemmaverse 得以扩展,这些模型旨在跨数据中心的 NVIDIA Blackwell 和边缘的 Jetson 等各种部署进行扩展。这些模型适合满足对 AI 开发和原型设计的本地部署日益增长的需求,确保本地需求、成本效益和延迟敏感用例。新一代可提高效率和准确性,使这些通用模型非常适合各种常见任务:  

  • 推理能力:在复杂的问题解决任务中表现出色。
  • 编码: 为开发者工作流程生成和调试代码。
  • 智能体:对结构化工具使用的原生支持 (函数调用) 。
  • 视觉视频和音频功能: 为物体识别、自动语音识别 (ASR) 、文档和视频智能等用例实现丰富的多模态交互。
  • 交错多模态输入: 在单个提示词中按任意顺序自由混合文本和图像。
  • 多语种:为超过 35 种语言提供开箱即用的支持,并使用 140 多种语言进行预训练。

该捆绑包包括四个模型,包括 Gemma 的首个 MoE 模型,这些模型都可以在单个 NVIDIA H100 GPU 上运行,并支持 140 多种语言。31B 和 26B A4B 是适用于本地和数据中心环境的高性能推理模型。E4B 和 E2B 是最新版的设备端和移动端设计模型,首次与 Gemma 3n 一起发布。

模型姓名  架构类型  总参数  活动或有效参数  输入上下文长度 
( 词元) 
滑窗法 
( 词元) 
模式 
Gemma-4 -31B 密集 Transformer 31B 25.6 万 1024  
Gemma-4 -26B-A4B MoE – 128 名专家 260 亿 38 亿 25.6 万  
Gemma-4 -E4B  密集 Transformer 79 亿 (具有嵌入) 45 亿有效 128K 512 文本、音频、视觉、视频
Gemma-4 -E2B 密集 Transformer 具有嵌入的 51 亿 23 亿有效 128K 512 文本、音频、视觉、视频
表 1. Gemma 4 模型系列概述,总结架构类型、参数大小、有效参数、支持的上下文长度和可用模式,帮助开发者为数据中心、边缘和设备部署选择合适的模型。

每个模型都可在 Hugging Face 上使用 BF16 检查点,并且适用于 Gemma-4 -31B 的 NVFP4 量化检查点即将面向 NVIDIA Blackwell 开发者推出。

在设备上运行智能工作负载

随着 AI 工作流和智能体越来越多地集成到日常应用中,在传统数据中心环境之外运行这些模型的能力变得至关重要。NVIDIA 客户端和边缘系统套件 (从 RTX GPU 和 DGX Spark 到 Jetson Nano) 为开发者提供了管理成本和延迟的灵活性,同时支持医疗健康和金融等受严格监管行业的安全要求。

我们与 vLLM、Ollama 和 llama.cpp 合作,为每个 Gemma 4 模型提供出色的本地部署体验。Unsloth 还通过优化和量化模型提供首发日支持,以便通过 Unsloth Studio 进行高效的本地部署。

查看 RTX AI Garage 博客文章,开始在 RTX GPU 和 DGX Spark 上使用 Gemma 4。

  DGX Spark  Jetson  RTX / RTX PRO 
用例  AI 研究
原型设计
边缘 AI 和机器人 桌面应用
和 Windows 开发 
主要亮点  预安装的 NVIDIA AI 软件堆栈和 128 GB 的统一内存为本地原型设计、微调和完全本地 OpenClaw 工作流提供支持 由于架构特性 (例如有条件参数加载和每层嵌入) 可缓存以提高显存使用速度并减少显存使用,因此延迟几乎为零 (更多信息 为业余爱好者、创作者和专业人士优化本地推理性能
入门指南  DGX Spark 手册vLLM、Ollama、Unsloth 和 llama.cpp 部署指南

NeMo 自动模型用于微调 Spark 指南

Jetson AI 实验室教程和自定义 Gemma 容器 RTX AI GarageOllama 和 llama.cpp 参考线。RTX Pro 用户也可以使用 vLLM。
表 2. 跨 NVIDIA 平台的本地部署选项比较,重点介绍主要用例、关键功能,以及适用于运行 Gemma 4 模型的 DGX Spark、Jetson 和 RTX/ RTX PRO 系统的推荐入门资源。

使用 DGX Spark 构建安全的代理式 AI 工作流

AI 开发者和发烧友受益于 GB10 Grace Blackwell 超级芯片以及 DGX Spark 中 128 GB 的统一显存,可提供运行 Gemma 4 31B 和 BF16 模型权重所需的资源。结合 DGX Linux OS 和完整的 NVIDIA 软件堆栈,开发者可以使用 Gemma 4 高效地原型设计和构建代理式 AI 工作流,同时保持私密、安全的设备端执行。

vLLM 推理引擎旨在高效运行 LLM,更大限度地提高吞吐量,同时更大限度地减少内存占用。使用 DGX Spark 上的 vLLM 高吞吐量 LLM 服务,可为大型 Gemma 4 模型提供高性能平台;推理 DGX Spark 剧本中的 vLLM for Inference DGX Spark 提供了在 DGX Spark 上使用 Gemma 4 运行 vLLM 的详细信息。或者使用 Ollamallama.cpp. 用户可以使用 NeMo Automodel 进一步微调 DGX Spark 上的模型。

使用 Jetson 为物理 AI 智能体提供支持

现代物理 AI 智能体正在通过集成音频、多模态感知和深度推理功能的 Gemma 4 模型快速发展。这些先进的模型使机器人系统能够超越简单的任务执行,使它们能够理解语音、解释视觉语境,并在采取行动之前进行智能推理。在 NVIDIA Jetson 上,开发者可以使用 llama.cpp 和 vLLM 在边缘运行 Gemma 4 推理。Jetson Orin Nano 支持 Gemma 4 e2b 和 e4b 变体,可在小型、嵌入式和功耗受限的系统上实现多模态推理,并且同一模型系列可在 Jetson 平台上扩展至 Jetson Thor。

这支持在机器人、智能机器和工业自动化用例中进行可扩展部署,这些用例依赖于低延迟性能和设备端智能。

Jetson 开发者可以查看教程并下载容器,以便从 Jetson AI 实验室 开始使用。

视频 1. 在 nvidia.cn 上演示 Gemma 4 31B

使用 NVIDIA NIM 进行生产就绪型部署

企业开发者可以使用 NVIDIA API Catalog 中提供的用于原型设计的 NVIDIA 托管 NIM API 免费试用 Gemma 4 31B 模型。对于生产部署,他们可以使用预打包和优化的 NIM 微服务,借助 NVIDIA 企业许可证进行安全的自托管部署。

企业开发者可以使用 NVIDIA API Catalog 中提供的用于原型设计的 NVIDIA 托管 NIM API 免费试用 Gemma 4 31B 模型。对于生产部署,他们可以使用预打包和优化的 NIM 微服务,借助 NVIDIA 企业许可证进行安全的自托管部署。

使用 NeMo 框架进行微调

开发者可以使用 NVIDIA NeMo 框架,尤其是结合了原生 PyTorch 易用性和优化性能的 NeMo Automodel 库,使用自己的域数据自定义 Gemma 4。借助这种针对 Gemma 4 的 微调方法,开发者可以应用监督式微调 (SFT) 和内存高效型 LoRA 等技术,从 Hugging Face 模型检查点开始执行全天微调,而无需转换。

立即开始

无论您使用哪款 NVIDIA GPU,Gemma 4 在整个 NVIDIA AI 平台上均受支持,并且在商业友好型 Apache 2.0 许可证下提供。从 Blackwell (即将推出 NVFP4 量化检查点) 到 Jetson 平台,开发者可以快速开始部署这些高精度多模态模型,并灵活地满足其速度、安全性和成本要求。

查看 Hugging Face 上的 Gemma,或访问 build.nvidia.com,使用 NVIDIA API 免费测试 Gemma 4 31B。

标签