智能体/生成式 AI

基于 NVIDIA GPU 加速端点,使用 Qwen3.5 VLM 开发原生多模态智能体

阿里巴巴推出了全新开源 Qwen3.5 系列,专为构建原生多模态智能体而设计。该系列的首个模型是一款总参数为 397B、具备推理能力的原生视觉语言模型 (VLM),基于由混合专家模型 (MoE) 和门控 Delta 网络 (Gated Delta Networks) 组成的混合架构构建。Qwen3.5 能够理解和导航用户界面,相较上一代 VLM 有了显著提升。

Qwen3.5 适用于各种用例,包括:

  • 编码任务,包括 Web 开发
  • 视觉推理任务,包括移动端和 Web 界面
  • 聊天应用
  • 复杂搜索
Qwen3.5
模态视觉、语言
总参数397B
激活参数17B
激活率4.28%
输入上下文长度256K token,可扩展至 1M token
支持的语言200+
其他配置信息
专家512
共享专家1
每个 token 使用的专家数量11(10 个路由专家 + 1 个共享专家)
层数60
词表大小248,320

 1. Qwen3.5 模型的规格和配置详情

使用 NVIDIA 端点进行构建

您可以在 NVIDIA 官网上免费使用由 NVIDIA GPU 驱动的 GPU 加速端点使用 Qwen3.5 进行构建。作为 NVIDIA 开发者计划的一部分,您可以在浏览器中快速体验、试验不同的提示词,并使用自己的数据测试模型,以评估其在实际场景中的性能。

视频 1. 了解如何在 NVIDIA GPU 加速端点上测试 Qwen3.5

您还可以通过 API 来调用 NVIDIA 托管的模型,注册 NVIDIA 开发者计划即可免费使用。

import requests 
   
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" 
   
headers = { 
    "Authorization": "Bearer $NVIDIA_API_KEY", 
    "Accept": "application/json", 
} 
   
payload = { 
  "messages": [ 
    { 
    "role": "user", 
    "content": "" 
    } 
  ], 
  "model": "qwen/qwen3.5-397b-a17b", 
  "chat_template_kwargs": { 
    "thinking": True 
  }, 
  "frequency_penalty": 0, 
  "max_tokens": 16384, 
  "presence_penalty": 0, 
  "stream": True, 
  "temperature": 1, 
  "top_p": 1 
} 
   
# re-use connections 
session = requests.Session() 
   
response = session.post(invoke_url, headers=headers, json=payload) 
   
response.raise_for_status() 
response_body = response.json() 
print(response_body)

要使用工具调用功能,只需定义一个由 OpenAI 兼容工具组成的数组,并将其添加到聊天补全接口的 tools 参数中。

NVIDIA NIM 可以轻松将 Qwen3.5 从开发阶段迁移到生产环境。NIM 提供经过优化的容器化推理微服务,将模型与性能调优、标准化 API 和企业所需的部署灵活性打包集成。您可以在各类环境中下载并运行,无论是本地、云上或混合环境。

使用 NVIDIA NeMo 自定义模型

Qwen3.5 已具备出色的“开箱即用”多模态功能,NVIDIA NeMo 框架仍提供了关键的工具集,使其进一步适配特定领域的需求。开发者可以使用 NeMo Automodel 库微调 Qwen3.5 397B 参数架构,实现高吞吐效率。

NeMo Automodel 是一个原生 PyTorch 训练库,提供 Day 0 Hugging Face 支持,无需繁琐的模型转换,即可在现有检查点上直接进行训练。无论是执行全量监督微调 (Supervised Fine-Tuning, SFT),还是使用 LoRA 等内存高效方法,都有助于快速开展实验。

作为参考实现指南,开发者可以利用医学视觉问答技术教程,该教程详细说明了如何在放射学数据集上微调 Qwen3.5。在大规模场景下,NeMo 支持多节点 Slurm 和 Kubernetes 部署,从而确保即使是最大的 MoE 模型,也能在特定领域的推理和复杂智能体工作流中实现低延迟的优化,并将延迟降至最低。

开始使用 Qwen3.5

从数据中心部署到可随时随地进行容器化部署的 NVIDIA NIM,NVIDIA 提供了 Qwen3.5 的集成解决方案。访问 Hugging Face 上的 Qwen3.5 模型页面并前往 NVIDIA 官网体验 Qwen 3.5 的功能。

标签