精选

在 NVIDIA 加速基础设施上使用 MiniMax M3 部署长上下文推理和代理式工作流

随着企业 AI 采用的规模扩大,开发者越来越多地不得不将分散的工作流拼接在一起,即分别用于文本、视觉和代码的模型,从而导致复杂性增加、成本增加和迭代速度变慢。

MiniMax M3 可在包括 NVIDIA Blackwell 在内的 NVIDIA 加速基础设施上使用,它通过启用能够进行长上下文推理、代理式工作流和创意任务的单一多模态系统来改变这一局面。

428B 参数 MoE 支持多达 100 万个 token 和原生多模态输入。开发者可以在 NVIDIA 平台上使用统一的模型和生产就绪型部署路径,构建长视频理解、扩展编码会话 ( 8 小时以上) 和高质量设计工作流等应用。

名称 MiniMax M3
输入模式 视频、图像、文本
总参数 428B
视觉编码器参数 600M
活动参数 220 亿
上下文长度 1 百万
专家 总计 128 个,每个令牌激活 4 位专家
精度格式 BF16、MXFP8
表 1. MiniMax M3 和 VLM MoE 模型规格 

MiniMax M3 的核心架构创新是 MiniMax 稀疏注意力 (MSA) ,它使用预过滤阶段取代了标准的二次注意力,该阶段可识别相关上下文块并仅关注这些上下文块。在运算符级别,每个 KV 缓存块在连续内存访问下读取一次,比现有的稀疏注意力实现快 4 倍以上。这使得在 100 万个 token 的环境下,每个 token 的计算量是 M2 的 1/ 20,预填充速度提高了 9 倍,解码速度提高了 15 倍,而且无需压缩键值或牺牲精度。该模型还会使用约 100 万亿个交错令牌从步骤 0 以原生方式训练文本、图像和视频,而不是在训练后添加多模态。

视频 1. NVIDIA API Catalog 中的 MiniMax M3,开发者可以在其中测试提示词、调整参数并探索推理控制,然后再使用模型构建 

开源推理

开发者可以将加速计算与他们选择的开源推理引擎结合使用,例如 NVIDIA TensorRT LLM (纯文本) 、SGLang 或 vLLM。

使用 NVIDIA TensorRT LLM 进行部署

这些优化可在 NVIDIA TensorRT LLM GitHub 资源库中找到。按照 快速入门指南 搭建高性能服务器,包括从 Hugging Face 下载模型检查点、即用型 Docker 容器,以及用于低延迟和最大吞吐量服务的配置选项。NVIDIA 还通过 Transformers 库就开发者体验开展协作。

使用 SGLang 进行部署 

使用 SGLang 服务框架部署模型的用户可以使用以下说明。有关更多信息和配置选项,请参阅 SGLang 文档

# 8 GPUs node case 
$ python -m sglang.launch_server \ 
    --model-path MiniMaxAI/MiniMax-M3 \ 
    --dtype bfloat16 \ 
    --tp-size 8 \ 
    --ep-size 8 \ 
    --trust-remote-code \ 
    --mem-fraction-static 0.8 \ 
    --enable-multimodal \ 
    --quantization mxfp8 \ 
    --attention-backend flashinfer \ 
    --mm-attention-backend flashinfer_cudnn \ 
    --moe-runner-backend deep_gemm \ 
    --chunked-prefill-size 8192 \ 
    --reasoning-parser minimax-m3 \ 
    --tool-call-parser minimax-m3-nom 
--tr 

使用 vLLM 进行部署

使用 vLLM 服务框架部署模型时,请按照以下说明操作。有关更多信息,请参阅 vLLM Recipe

vllm serve MiniMaxAI/MiniMax-M3 \ 
  --tensor-parallel-size 8 \ 
  --enable-expert-parallel \ 
  --block-size 128 \ 
  --mm-encoder-attn-backend FLASHINFER \ 
  --mm-processor-cache-type shm \ 
  --tool-call-parser minimax_m3 \ 
  --enable-auto-tool-choice \ 
  --reasoning-parser minimax_m3 \ 
  --trust-remote-code 

使用 NVIDIA Dynamo 进行扩展

Dynamo 是一个开源分布式推理服务平台,供开发者在大规模应用中部署 MiniMax M3 等前沿模型。使用 Dynamo 和 TensorRT LLM 部署 MiniMax M3 可提高长输入序列长度的性能,而不会牺牲吞吐量或增加 GPU 预算。

Dynamo 集成了所有主要的推理引擎和框架,包括 PyTorch、SGLang、TensorRT LLM 和 vLLM,并提供 LLM 感知路由、弹性自动扩展和低延迟数据传输。开发者可以按照 部署指南 使用 Dynamo 运行 MiniMax M3。

使用 NVIDIA NeMo 框架进行定制

MiniMax M3 可以使用开源 NVIDIA NeMo 框架进行定制和微调。用户可以:

  • 使用NVIDIA NeMo AutoModel对 Hugging Face 检查点进行开箱即用的微调 (包括 SFT 和 LoRA) ,无需任何转换,并通过全 N-D 并行实现高吞吐量加速。具体而言,上下文并行支持适用于高达 128k 的序列长度。
  • 使用NVIDIA NeMo RL在 Minimax M3 上执行强化学习,并参考以下样本准确性曲线准确性曲线

这些库为开发者提供了一套轻量级工具,用于在最新的前沿模型上进行快速实验。

立即开始

开发者可以使用 build.nvidia.com 上的 GPU 加速 API 或从 Hugging Face 下载权重,从而对 MiniMax M3 进行原型设计和评估。

标签