随着企业 AI 采用的规模扩大,开发者越来越多地不得不将分散的工作流拼接在一起,即分别用于文本、视觉和代码的模型,从而导致复杂性增加、成本增加和迭代速度变慢。
MiniMax M3 可在包括 NVIDIA Blackwell 在内的 NVIDIA 加速基础设施上使用,它通过启用能够进行长上下文推理、代理式工作流和创意任务的单一多模态系统来改变这一局面。
428B 参数 MoE 支持多达 100 万个 token 和原生多模态输入。开发者可以在 NVIDIA 平台上使用统一的模型和生产就绪型部署路径,构建长视频理解、扩展编码会话 ( 8 小时以上) 和高质量设计工作流等应用。
| 名称 | MiniMax M3 |
| 输入模式 | 视频、图像、文本 |
| 总参数 | 428B |
| 视觉编码器参数 | 600M |
| 活动参数 | 220 亿 |
| 上下文长度 | 1 百万 |
| 专家 | 总计 128 个,每个令牌激活 4 位专家 |
| 精度格式 | BF16、MXFP8 |
MiniMax M3 的核心架构创新是 MiniMax 稀疏注意力 (MSA) ,它使用预过滤阶段取代了标准的二次注意力,该阶段可识别相关上下文块并仅关注这些上下文块。在运算符级别,每个 KV 缓存块在连续内存访问下读取一次,比现有的稀疏注意力实现快 4 倍以上。这使得在 100 万个 token 的环境下,每个 token 的计算量是 M2 的 1/ 20,预填充速度提高了 9 倍,解码速度提高了 15 倍,而且无需压缩键值或牺牲精度。该模型还会使用约 100 万亿个交错令牌从步骤 0 以原生方式训练文本、图像和视频,而不是在训练后添加多模态。
开源推理
开发者可以将加速计算与他们选择的开源推理引擎结合使用,例如 NVIDIA TensorRT LLM (纯文本) 、SGLang 或 vLLM。
使用 NVIDIA TensorRT LLM 进行部署
这些优化可在 NVIDIA TensorRT LLM GitHub 资源库中找到。按照 快速入门指南 搭建高性能服务器,包括从 Hugging Face 下载模型检查点、即用型 Docker 容器,以及用于低延迟和最大吞吐量服务的配置选项。NVIDIA 还通过 Transformers 库就开发者体验开展协作。
使用 SGLang 进行部署
使用 SGLang 服务框架部署模型的用户可以使用以下说明。有关更多信息和配置选项,请参阅 SGLang 文档。
# 8 GPUs node case
$ python -m sglang.launch_server \
--model-path MiniMaxAI/MiniMax-M3 \
--dtype bfloat16 \
--tp-size 8 \
--ep-size 8 \
--trust-remote-code \
--mem-fraction-static 0.8 \
--enable-multimodal \
--quantization mxfp8 \
--attention-backend flashinfer \
--mm-attention-backend flashinfer_cudnn \
--moe-runner-backend deep_gemm \
--chunked-prefill-size 8192 \
--reasoning-parser minimax-m3 \
--tool-call-parser minimax-m3-nom
--tr
使用 vLLM 进行部署
使用 vLLM 服务框架部署模型时,请按照以下说明操作。有关更多信息,请参阅 vLLM Recipe。
vllm serve MiniMaxAI/MiniMax-M3 \
--tensor-parallel-size 8 \
--enable-expert-parallel \
--block-size 128 \
--mm-encoder-attn-backend FLASHINFER \
--mm-processor-cache-type shm \
--tool-call-parser minimax_m3 \
--enable-auto-tool-choice \
--reasoning-parser minimax_m3 \
--trust-remote-code
使用 NVIDIA Dynamo 进行扩展
Dynamo 是一个开源分布式推理服务平台,供开发者在大规模应用中部署 MiniMax M3 等前沿模型。使用 Dynamo 和 TensorRT LLM 部署 MiniMax M3 可提高长输入序列长度的性能,而不会牺牲吞吐量或增加 GPU 预算。
Dynamo 集成了所有主要的推理引擎和框架,包括 PyTorch、SGLang、TensorRT LLM 和 vLLM,并提供 LLM 感知路由、弹性自动扩展和低延迟数据传输。开发者可以按照 部署指南 使用 Dynamo 运行 MiniMax M3。
使用 NVIDIA NeMo 框架进行定制
MiniMax M3 可以使用开源 NVIDIA NeMo 框架进行定制和微调。用户可以:
- 使用NVIDIA NeMo AutoModel对 Hugging Face 检查点进行开箱即用的微调 (包括 SFT 和 LoRA) ,无需任何转换,并通过全 N-D 并行实现高吞吐量加速。具体而言,上下文并行支持适用于高达 128k 的序列长度。
- 使用NVIDIA NeMo RL在 Minimax M3 上执行强化学习,并参考以下样本准确性曲线准确性曲线。
这些库为开发者提供了一套轻量级工具,用于在最新的前沿模型上进行快速实验。
立即开始
开发者可以使用 build.nvidia.com 上的 GPU 加速 API 或从 Hugging Face 下载权重,从而对 MiniMax M3 进行原型设计和评估。