在 NVIDIA 加速基础设施上使用 MiniMax M3 部署长上下文推理和代理式工作流

随着企业 AI 采用的规模扩大，开发者越来越多地不得不将分散的工作流拼接在一起，即分别用于文本、视觉和代码的模型，从而导致复杂性增加、成本增加和迭代速度变慢。

MiniMax M3 可在包括 NVIDIA Blackwell 在内的 NVIDIA 加速基础设施上使用，它通过启用能够进行长上下文推理、代理式工作流和创意任务的单一多模态系统来改变这一局面。

428B 参数 MoE 支持多达 100 万个 token 和原生多模态输入。开发者可以在 NVIDIA 平台上使用统一的模型和生产就绪型部署路径，构建长视频理解、扩展编码会话 ( 8 小时以上) 和高质量设计工作流等应用。

名称	MiniMax M3
输入模式	视频、图像、文本
总参数	428B
视觉编码器参数	600M
活动参数	220 亿
上下文长度	1 百万
专家	总计 128 个，每个令牌激活 4 位专家
精度格式	BF16、MXFP8

表 1. MiniMax M3 和 VLM MoE 模型规格

MiniMax M3 的核心架构创新是 MiniMax 稀疏注意力 (MSA) ，它使用预过滤阶段取代了标准的二次注意力，该阶段可识别相关上下文块并仅关注这些上下文块。在运算符级别，每个 KV 缓存块在连续内存访问下读取一次，比现有的稀疏注意力实现快 4 倍以上。这使得在 100 万个 token 的环境下，每个 token 的计算量是 M2 的 1/ 20，预填充速度提高了 9 倍，解码速度提高了 15 倍，而且无需压缩键值或牺牲精度。该模型还会使用约 100 万亿个交错令牌从步骤 0 以原生方式训练文本、图像和视频，而不是在训练后添加多模态。

视频 1. NVIDIA API Catalog 中的 MiniMax M3，开发者可以在其中测试提示词、调整参数并探索推理控制，然后再使用模型构建

开源推理

开发者可以将加速计算与他们选择的开源推理引擎结合使用，例如 NVIDIA TensorRT LLM (纯文本) 、SGLang 或 vLLM。

使用 NVIDIA TensorRT LLM 进行部署

这些优化可在 NVIDIA TensorRT LLM GitHub 资源库中找到。按照快速入门指南搭建高性能服务器，包括从 Hugging Face 下载模型检查点、即用型 Docker 容器，以及用于低延迟和最大吞吐量服务的配置选项。NVIDIA 还通过 Transformers 库就开发者体验开展协作。

使用 SGLang 进行部署

使用 SGLang 服务框架部署模型的用户可以使用以下说明。有关更多信息和配置选项，请参阅 SGLang 文档。

# 8 GPUs node case 
$ python -m sglang.launch_server \ 
    --model-path MiniMaxAI/MiniMax-M3 \ 
    --dtype bfloat16 \ 
    --tp-size 8 \ 
    --ep-size 8 \ 
    --trust-remote-code \ 
    --mem-fraction-static 0.8 \ 
    --enable-multimodal \ 
    --quantization mxfp8 \ 
    --attention-backend flashinfer \ 
    --mm-attention-backend flashinfer_cudnn \ 
    --moe-runner-backend deep_gemm \ 
    --chunked-prefill-size 8192 \ 
    --reasoning-parser minimax-m3 \ 
    --tool-call-parser minimax-m3-nom 
--tr

使用 vLLM 进行部署

使用 vLLM 服务框架部署模型时，请按照以下说明操作。有关更多信息，请参阅 vLLM Recipe。

vllm serve MiniMaxAI/MiniMax-M3 \ 
  --tensor-parallel-size 8 \ 
  --enable-expert-parallel \ 
  --block-size 128 \ 
  --mm-encoder-attn-backend FLASHINFER \ 
  --mm-processor-cache-type shm \ 
  --tool-call-parser minimax_m3 \ 
  --enable-auto-tool-choice \ 
  --reasoning-parser minimax_m3 \ 
  --trust-remote-code

使用 NVIDIA Dynamo 进行扩展

Dynamo 是一个开源分布式推理服务平台，供开发者在大规模应用中部署 MiniMax M3 等前沿模型。使用 Dynamo 和 TensorRT LLM 部署 MiniMax M3 可提高长输入序列长度的性能，而不会牺牲吞吐量或增加 GPU 预算。

Dynamo 集成了所有主要的推理引擎和框架，包括 PyTorch、SGLang、TensorRT LLM 和 vLLM，并提供 LLM 感知路由、弹性自动扩展和低延迟数据传输。开发者可以按照部署指南使用 Dynamo 运行 MiniMax M3。

使用 NVIDIA NeMo 框架进行定制

MiniMax M3 可以使用开源 NVIDIA NeMo 框架进行定制和微调。用户可以：

使用NVIDIA NeMo AutoModel对 Hugging Face 检查点进行开箱即用的微调 (包括 SFT 和 LoRA) ，无需任何转换，并通过全 N-D 并行实现高吞吐量加速。具体而言，上下文并行支持适用于高达 128k 的序列长度。
使用NVIDIA NeMo RL在 Minimax M3 上执行强化学习，并参考以下样本准确性曲线准确性曲线。

这些库为开发者提供了一套轻量级工具，用于在最新的前沿模型上进行快速实验。

立即开始

开发者可以使用 build.nvidia.com 上的 GPU 加速 API 或从 Hugging Face 下载权重，从而对 MiniMax M3 进行原型设计和评估。

在 NVIDIA 加速基础设施上使用 MiniMax M3 部署长上下文推理和代理式工作流

开源推理

使用 NVIDIA Dynamo 进行扩展

使用 NVIDIA NeMo 框架进行定制

立即开始

标签

关于作者