基于 NVIDIA GPU 加速端点，使用千问3.5 VLM 开发原生多模态智能体

阿里巴巴推出了全新开源千问3.5 系列，专为构建原生多模态智能体而设计。该系列的首个模型是一款总参数为 397B、具备推理能力的原生视觉语言模型 (VLM)，基于由混合专家模型 (MoE) 和门控 Delta 网络 (Gated Delta Networks) 组成的混合架构构建。千问3.5 能够理解和导航用户界面，相较上一代 VLM 有了显著提升。

千问3.5 适用于各种用例，包括：

编码任务，包括 Web 开发
视觉推理任务，包括移动端和 Web 界面
聊天应用
复杂搜索

千问3.5
模态	视觉、语言
总参数	397B
激活参数	17B
激活率	4.28%
输入上下文长度	256K token，可扩展至 1M token
支持的语言	200+
其他配置信息
专家	512
共享专家	1
每个 token 使用的专家数量	11（10 个路由专家 + 1 个共享专家）
层数	60
词表大小	248,320

表 1. 千问3.5 模型的规格和配置详情

使用 NVIDIA 端点进行构建

您可以在 NVIDIA 官网上免费使用由 NVIDIA GPU 驱动的 GPU 加速端点使用千问3.5 进行构建。作为 NVIDIA 开发者计划的一部分，您可以在浏览器中快速体验、试验不同的提示词，并使用自己的数据测试模型，以评估其在实际场景中的性能。

视频 1. 了解如何在 NVIDIA GPU 加速端点上测试千问3.5

您还可以通过 API 来调用 NVIDIA 托管的模型，注册 NVIDIA 开发者计划即可免费使用。

import requests 
   
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" 
   
headers = { 
    "Authorization": "Bearer $NVIDIA_API_KEY", 
    "Accept": "application/json", 
} 
   
payload = { 
  "messages": [ 
    { 
    "role": "user", 
    "content": "" 
    } 
  ], 
  "model": "qwen/qwen3.5-397b-a17b", 
  "chat_template_kwargs": { 
    "thinking": True 
  }, 
  "frequency_penalty": 0, 
  "max_tokens": 16384, 
  "presence_penalty": 0, 
  "stream": True, 
  "temperature": 1, 
  "top_p": 1 
} 
   
# re-use connections 
session = requests.Session() 
   
response = session.post(invoke_url, headers=headers, json=payload) 
   
response.raise_for_status() 
response_body = response.json() 
print(response_body)

要使用工具调用功能，只需定义一个由 OpenAI 兼容工具组成的数组，并将其添加到聊天补全接口的 tools 参数中。

NVIDIA NIM 可以轻松将千问3.5 从开发阶段迁移到生产环境。NIM 提供经过优化的容器化推理微服务，将模型与性能调优、标准化 API 和企业所需的部署灵活性打包集成。您可以在各类环境中下载并运行，无论是本地、云上或混合环境。

使用 NVIDIA NeMo 自定义模型

千问3.5 已具备出色的“开箱即用”多模态功能，NVIDIA NeMo 框架仍提供了关键的工具集，使其进一步适配特定领域的需求。开发者可以使用 NeMo Automodel 库微调千问3.5 397B 参数架构，实现高吞吐效率。

NeMo Automodel 是一个原生 PyTorch 训练库，提供 Day 0 Hugging Face 支持，无需繁琐的模型转换，即可在现有检查点上直接进行训练。无论是执行全量监督微调 (Supervised Fine-Tuning, SFT)，还是使用 LoRA 等内存高效方法，都有助于快速开展实验。

作为参考实现指南，开发者可以利用医学视觉问答技术教程，该教程详细说明了如何在放射学数据集上微调千问3.5。在大规模场景下，NeMo 支持多节点 Slurm 和 Kubernetes 部署，从而确保即使是最大的 MoE 模型，也能在特定领域的推理和复杂智能体工作流中实现低延迟的优化，并将延迟降至最低。

开始使用千问3.5

从数据中心部署到可随时随地进行容器化部署的 NVIDIA NIM，NVIDIA 提供了千问3.5 的集成解决方案。访问 Hugging Face 上的千问3.5 模型页面，并前往 NVIDIA 官网体验千问3.5 的功能。

基于 NVIDIA GPU 加速端点，使用千问3.5 VLM 开发原生多模态智能体

使用 NVIDIA 端点进行构建

标签

关于作者

基于 NVIDIA GPU 加速端点，使用千问3.5 VLM 开发原生多模态智能体

使用 NVIDIA 端点进行构建

标签

关于作者

相关文章

借助 Gemma 4，让 AI 更贴近边缘和设备端

为资本市场实现单位数微秒级延迟推理

NVIDIA Vera Rubin POD：7 个芯片、5 个机架级系统、1 台 AI 超级计算机

如何使用 NVIDIA AI-Q 和 LangChain 构建用于企业搜索的深度智能体

借助 NVIDIA 构建 AI 网格：随时随地编排智能