基于 NVIDIA GPU 加速端点构建 Kimi K2.5 多模态视觉语言模型

Kimi K2.5 是 Kimi 模型家族最新推出的开放式视觉语言模型（VLM）。作为通用型多模态模型，Kimi K2.5 在当前高需求任务中表现出色，涵盖代理式 AI 工作流、对话、推理、编程、数学等领域。

该模型基于开源的 Megatron-LM 框架进行训练。Megatron-LM 通过多种并行策略（包括张量并行、数据并行、序列并行）为大规模 Transformer 模型训练提供加速计算支持，实现可扩展性和 GPU 优化。

该模型架构基于当前领先的尖端大型开放模型构建，兼具高效与能力。模型每层有384个专家，从而支持更小规模的专家及针对不同模态的专用路由机制。Kimi K2.5 实现了每 token 3.2% 的参数激活率。

Kimi K2.5
模态	文本，图像，视频
总参数量	1T
激活参数量	32.86B
参数激活率	3.2%
输入上下文长度	262K
附加配置信息
# 专家数量	384
# 共享专家数量	1
# 每个 token 的专家数量	8
# 层数	61 (1 dense, 60 MoE)
# 注意力头数量	64
词汇表大小	~164K

表1. Kimi K2.5 型号规格与配置详情

在视觉处理能力方面，该模型拥有 16.4 万词的大型训练词汇表，其中包含视觉专属 token。Kimi 为该模型的视觉处理组件设计了 MoonViT3d 视觉塔（vision tower），可将图像和视频帧转换为嵌入向量。

图1. Kimi K2.5视觉管道

基于 NVIDIA GPU 加速的端点进行构建

作为 NVIDIA 开发者计划的一部分，用户可立即使用 Kimi K2.5 开始你构建。用户可在浏览器环境中使用自有数据。用于生产推理的容器 NVIDIA NIM 微服务即将推出。

视频1. 了解如何在 NVIDIA GPU 加速端点上测试 Kimi K2.5

用户还可以通过 API 使用 NVIDIA 托管的模型，注册 NVIDIA 开发者计划即可免费使用。

import requests 
   
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions"
   
headers = { 
    "Authorization": "Bearer $NVIDIA_API_KEY", 
    "Accept": "application/json", 
} 
   
payload = { 
  "messages": [ 
    { 
    "role": "user", 
    "content": "" 
    } 
  ], 
  "model": "moonshotai/kimi-k2.5", 
  "chat_template_kwargs": { 
    "thinking": True
  }, 
  "frequency_penalty": 0, 
  "max_tokens": 16384, 
  "presence_penalty": 0, 
  "stream": True, 
  "temperature": 1, 
  "top_p": 1
} 
   
# re-use connections 
session = requests.Session() 
   
response = session.post(invoke_url, headers=headers, json=payload) 
   
response.raise_for_status() 
response_body = response.json() 
print(response_body)

要利用工具调用功能，只需定义一个兼容 OpenAI 的工具数组，将其添加到 chat completions 工具参数中即可。

使用vLLM进行部署

使用 vLLM 服务框架部署模型时，请按照以下说明操作。更多信息请参阅 Kimi K2.5 的 vLLM recipe。

$ uv venv
$ source .venv/bin/activate
$ uv pip install -U vllm --pre \
   --extra-index-url https://wheels.vllm.ai/nightly/cu129 \
   --extra-index-url https://download.pytorch.org/whl/cu129 \
   --index-strategy unsafe-best-match

使用 NVIDIA NeMo 框架进行微调

Kimi K2.5 可通过开源的 NeMo 框架进行定制与微调，借助 NeMo AutoModel 库将模型适配于特定领域的多模态任务、智能体工作流及企业推理场景。

NeMo 框架是一套开源库集合，支持可扩展的模型预训练与后训练，涵盖监督性微调、参数高效方法，及适用于各种规模和模态的模型的强化学习。

NeMo AutoModel 是 NeMo 框架内原生的 PyTorch 分布式训练库，支持直接在 Hugging Face 检查点上进行高吞吐量训练，无需进行转换操作。该工具为开发者和研究人员提供了轻量且灵活的解决方案，助力其在最新前沿模型上快速开展实验。

尝试使用 NeMo AutoModel recipe 对 Kimi K2.5 进行微调。

开始使用 Kimi K2.5

从基于 NVIDIA Blackwell 的数据中心部署到全托管的企业级 NVIDIA NIM 微服务，NVIDIA 提供了多种方案以便集成 Kimi K2.5 集。立即访问Hugging Face 平台的 Kimi K2.5 模型页面及 Kimi API 平台。

基于 NVIDIA GPU 加速端点构建 Kimi K2.5 多模态视觉语言模型

使用vLLM进行部署

使用 NVIDIA NeMo 框架进行微调

开始使用 Kimi K2.5

标签

关于作者

基于 NVIDIA GPU 加速端点构建 Kimi K2.5 多模态视觉语言模型

使用vLLM进行部署

使用 NVIDIA NeMo 框架进行微调

开始使用 Kimi K2.5

标签

关于作者

相关文章

采用 NVFP4 低精度训练提升吞吐量，兼顾精度无损

借助 NVIDIA 多实例 GPU 和 NUMA 节点定位加速数据处理

登顶 GPU 内核排行榜：借助 NVIDIA CUDA.compute 实现卓越性能

在 NVIDIA Run:ai 中利用 GPU 解锁大规模 Token 吞吐能力

构建 AI 就绪型知识系统：掌握 5 种核心多模态 RAG 功能