借助 Gemma 4，让 AI 更贴近边缘和设备端

随着最新 Gemma 4 多模态和多语言模型的推出，Gemmaverse 得以扩展，这些模型旨在跨数据中心的 NVIDIA Blackwell 和边缘的 Jetson 等各种部署进行扩展。这些模型适合满足对 AI 开发和原型设计的本地部署日益增长的需求，确保本地需求、成本效益和延迟敏感用例。新一代可提高效率和准确性，使这些通用模型非常适合各种常见任务：

推理能力：在复杂的问题解决任务中表现出色。
编码： 为开发者工作流程生成和调试代码。
智能体：对结构化工具使用的原生支持 (函数调用) 。
视觉、视频和音频功能： 为物体识别、自动语音识别 (ASR) 、文档和视频智能等用例实现丰富的多模态交互。
交错多模态输入: 在单个提示词中按任意顺序自由混合文本和图像。
多语种：为超过 35 种语言提供开箱即用的支持，并使用 140 多种语言进行预训练。

该捆绑包包括四个模型，包括 Gemma 的首个 MoE 模型，这些模型都可以在单个 NVIDIA H100 GPU 上运行，并支持 140 多种语言。31B 和 26B A4B 是适用于本地和数据中心环境的高性能推理模型。E4B 和 E2B 是最新版的设备端和移动端设计模型，首次与 Gemma 3n 一起发布。

模型姓名	架构类型	总参数	活动或有效参数	输入上下文长度 ( 词元)	滑窗法 ( 词元)	模式
Gemma-4 -31B	密集 Transformer	31B	–	25.6 万	1024
Gemma-4 -26B-A4B	MoE – 128 名专家	260 亿	38 亿	25.6 万	–
Gemma-4 -E4B	密集 Transformer	79 亿 (具有嵌入)	45 亿有效	128K	512	文本、音频、视觉、视频
Gemma-4 -E2B	密集 Transformer	具有嵌入的 51 亿	23 亿有效	128K	512	文本、音频、视觉、视频

表 1. Gemma 4 模型系列概述，总结架构类型、参数大小、有效参数、支持的上下文长度和可用模式，帮助开发者为数据中心、边缘和设备部署选择合适的模型。

每个模型都可在 Hugging Face 上使用 BF16 检查点，并且适用于 Gemma-4 -31B 的 NVFP4 量化检查点即将面向 NVIDIA Blackwell 开发者推出。

在设备上运行智能工作负载

随着 AI 工作流和智能体越来越多地集成到日常应用中，在传统数据中心环境之外运行这些模型的能力变得至关重要。NVIDIA 客户端和边缘系统套件 (从 RTX GPU 和 DGX Spark 到 Jetson Nano) 为开发者提供了管理成本和延迟的灵活性，同时支持医疗健康和金融等受严格监管行业的安全要求。

我们与 vLLM、Ollama 和 llama.cpp 合作，为每个 Gemma 4 模型提供出色的本地部署体验。Unsloth 还通过优化和量化模型提供首发日支持，以便通过 Unsloth Studio 进行高效的本地部署。

查看 RTX AI Garage 博客文章，开始在 RTX GPU 和 DGX Spark 上使用 Gemma 4。

	DGX Spark	Jetson	RTX / RTX PRO
用例	AI 研究原型设计	边缘 AI 和机器人	桌面应用和 Windows 开发
主要亮点	预安装的 NVIDIA AI 软件堆栈和 128 GB 的统一内存为本地原型设计、微调和完全本地 OpenClaw 工作流提供支持	由于架构特性 (例如有条件参数加载和每层嵌入) 可缓存以提高显存使用速度并减少显存使用，因此延迟几乎为零 (更多信息)	为业余爱好者、创作者和专业人士优化本地推理性能
入门指南	DGX Spark 手册vLLM、Ollama、Unsloth 和 llama.cpp 部署指南 NeMo 自动模型用于微调 Spark 指南	Jetson AI 实验室教程和自定义 Gemma 容器	RTX AI GarageOllama 和 llama.cpp 参考线。RTX Pro 用户也可以使用 vLLM。

表 2. 跨 NVIDIA 平台的本地部署选项比较，重点介绍主要用例、关键功能，以及适用于运行 Gemma 4 模型的 DGX Spark、Jetson 和 RTX/ RTX PRO 系统的推荐入门资源。

使用 DGX Spark 构建安全的代理式 AI 工作流

AI 开发者和发烧友受益于 GB10 Grace Blackwell 超级芯片以及 DGX Spark 中 128 GB 的统一显存，可提供运行 Gemma 4 31B 和 BF16 模型权重所需的资源。结合 DGX Linux OS 和完整的 NVIDIA 软件堆栈，开发者可以使用 Gemma 4 高效地原型设计和构建代理式 AI 工作流，同时保持私密、安全的设备端执行。

vLLM 推理引擎旨在高效运行 LLM，更大限度地提高吞吐量，同时更大限度地减少内存占用。使用 DGX Spark 上的 vLLM 高吞吐量 LLM 服务，可为大型 Gemma 4 模型提供高性能平台；推理 DGX Spark 剧本中的 vLLM for Inference DGX Spark 提供了在 DGX Spark 上使用 Gemma 4 运行 vLLM 的详细信息。或者使用 Ollama 或 llama.cpp. 用户可以使用 NeMo Automodel 进一步微调 DGX Spark 上的模型。

使用 Jetson 为物理 AI 智能体提供支持

现代物理 AI 智能体正在通过集成音频、多模态感知和深度推理功能的 Gemma 4 模型快速发展。这些先进的模型使机器人系统能够超越简单的任务执行，使它们能够理解语音、解释视觉语境，并在采取行动之前进行智能推理。在 NVIDIA Jetson 上，开发者可以使用 llama.cpp 和 vLLM 在边缘运行 Gemma 4 推理。Jetson Orin Nano 支持 Gemma 4 e2b 和 e4b 变体，可在小型、嵌入式和功耗受限的系统上实现多模态推理，并且同一模型系列可在 Jetson 平台上扩展至 Jetson Thor。

这支持在机器人、智能机器和工业自动化用例中进行可扩展部署，这些用例依赖于低延迟性能和设备端智能。

Jetson 开发者可以查看教程并下载容器，以便从 Jetson AI 实验室开始使用。

视频 1. 在 nvidia.cn 上演示 Gemma 4 31B

使用 NVIDIA NIM 进行生产就绪型部署

企业开发者可以使用 NVIDIA API Catalog 中提供的用于原型设计的 NVIDIA 托管 NIM API 免费试用 Gemma 4 31B 模型。对于生产部署，他们可以使用预打包和优化的 NIM 微服务，借助 NVIDIA 企业许可证进行安全的自托管部署。

使用 NeMo 框架进行微调

开发者可以使用 NVIDIA NeMo 框架，尤其是结合了原生 PyTorch 易用性和优化性能的 NeMo Automodel 库，使用自己的域数据自定义 Gemma 4。借助这种针对 Gemma 4 的微调方法，开发者可以应用监督式微调 (SFT) 和内存高效型 LoRA 等技术，从 Hugging Face 模型检查点开始执行全天微调，而无需转换。

立即开始

无论您使用哪款 NVIDIA GPU，Gemma 4 在整个 NVIDIA AI 平台上均受支持，并且在商业友好型 Apache 2.0 许可证下提供。从 Blackwell (即将推出 NVFP4 量化检查点) 到 Jetson 平台，开发者可以快速开始部署这些高精度多模态模型，并灵活地满足其速度、安全性和成本要求。

查看 Hugging Face 上的 Gemma，或访问 build.nvidia.com，使用 NVIDIA API 免费测试 Gemma 4 31B。

借助 Gemma 4，让 AI 更贴近边缘和设备端

在设备上运行智能工作负载

使用 DGX Spark 构建安全的代理式 AI 工作流

使用 Jetson 为物理 AI 智能体提供支持

使用 NVIDIA NIM 进行生产就绪型部署

使用 NeMo 框架进行微调

立即开始

标签

关于作者

借助 Gemma 4，让 AI 更贴近边缘和设备端

在设备上运行智能工作负载

使用 DGX Spark 构建安全的代理式 AI 工作流

使用 Jetson 为物理 AI 智能体提供支持

使用 NVIDIA NIM 进行生产就绪型部署

使用 NeMo 框架进行微调

立即开始

标签

关于作者

相关文章

为资本市场实现单位数微秒级延迟推理

NVIDIA Vera Rubin POD：7 个芯片、5 个机架级系统、1 台 AI 超级计算机

如何使用 NVIDIA AI-Q 和 LangChain 构建用于企业搜索的深度智能体

借助 NVIDIA 构建 AI 网格：随时随地编排智能

使用仿真构建医院自动化机器人系统