从解服务中移除猜测

部署和优化大语言模型 (LLM) 以实现高性能、经济高效的服务可能是一项艰巨的工程难题。任何给定工作负载 (例如硬件、并行和预填充/ 解码拆分) 的理想配置都存在于一个庞大的多维搜索空间中，而手动或通过详尽测试无法探索该空间。AIConfigurator 是一款开源工具，可简化 NVIDIA Dynamo AI 服务堆栈，旨在降低复杂性，并在几分钟内优化部署。

AIConfigurator 的核心优势在于，您无需在真实硬件上运行所有可能的配置，即可预测哪种配置的性能最佳。相反，它将 LLM 推理分解为其构成运算，并在目标 GPU 上单独测量每个运算。然后，AIConfigurator 可以重新组合这些测量结果，以估算任何配置的端到端性能，而无需在搜索时占用一个 GPU 小时。

本博客将简要概述 AIConfigurator 的工作原理；如何将其与 Dynamo 结合使用；以及阿里巴巴和 Mooncake 等生态系统贡献者如何帮助将此开源项目的功能扩展到所有框架。

使用 AIConfigurator 配置解服务

借助 AIConfigurator，每个操作 (包括通用矩阵乘法 (GEMM) 、注意力、通信和混合专家模型 (MoE) 调度) 的延迟估算均由在目标硬件上收集的真实内核测量结果提供支持。收集器工具链针对所支持的量化模式、批量大小、序列长度和 GPU 数量对每个基元进行基准测试，并将结果记录到硅校准性能数据库中。当收集的数据无法用于新模型或 GPU 时，AIConfigurator 会使用经验校正系数回退到光速顶线估计值，甚至在对模型进行经验性分析之前就能提供可用的建议。

在此估计层之上，AIConfigurator 对用于聚合服务的连续批处理、速率匹配预填充和解码工作池进行建模，以进行分解服务，并处理 MoE 特定的问题，如专家并行和 token 路由偏差。它不会返回单个答案，而是在所有评估的配置中计算 Pareto 前沿，同时显示聚合和解模式的吞吐量与延迟权衡。完整搜索通常涵盖数万个候选配置，只需几秒钟即可完成，而无需花费数天时间在 GPU 上进行搜索。

要了解此工具如何为开发者提供帮助，请考虑一个具体示例：在 64 个 NVIDIA B200 GPU 上部署具有 NVFP4 量化的 Qwen3-32B，目标 SLA 为 time-to-first-token (TTFT) 和 time-per-output-token (TPOT) 之间的时长分别为 1000 毫秒和 15 毫秒。您可以使用单个命令搜索数千个候选配置：

pip install aiconfigurator  # or install from source for latest
  aiconfigurator cli default \
    --model-path nvidia/Qwen3-32B-NVFP4 \
    --total-gpus 64 \
    --system b200_sxm \
    --isl 15000 --osl 500 \
    --ttft 1000 --tpot 15 \
    --save-dir ./results

AIConfigurator 会在几秒钟内返回推荐内容。在本示例中，解服务可实现 550 tokens/s/ GPU，比最佳聚合配置提高 38%。输出包括一个 Pareto 边界，用于可视化完整的权衡空间、等级配置 (best_config_topn.csv) 、每个工作者类型的引擎配置，以及两种服务模式的即用型部署构件。

要在 Dynamo 中进行解服务，部署推荐的配置需要一个命令：

kubectl apply -f results/disagg/top1/k8s_deploy.yaml

此工作流可跨模型和硬件进行推广。无论是在 8 个 NVIDIA H200 GPU 上部署 Qwen3-32B，还是在多节点 B200 集群上部署 DeepSeek-V3，接口都相同；AIConfigurator 可根据指定的模型、硬件和 SLA 限制调整其搜索空间和建议。

扩展对多个框架的支持

AIConfigurator 最初仅支持 NVIDIA TensorRT LLM，但随着 SGLang 等框架越来越受欢迎，尤其是对于 DeepSeek 等 MoE 模型，单后端支持已不再足够。我们设计了一个与框架无关的抽象层，该层具有统一的参数映射，可在单个接口后规范化每个后端的配置模式和术语。当 Mooncake 和阿里巴巴等社区合作伙伴将 SGLang 支持变为现实时，这项投资得到了回报，并在以下章节中介绍了收集、验证和集成工作。

从用户的角度来看，比较后端是一种单标志变化：

# TensorRT LLM
aiconfigurator cli default \
  --model-path nvidia/Qwen3-32B-NVFP4 \
  --total-gpus 64 --system b200_sxm \
  --backend trtllm
# SGLang
aiconfigurator cli default \
  --model-path nvidia/Qwen3-32B-NVFP4 \
  --total-gpus 64 --system b200_sxm \
  --backend sglang
# vLLM
aiconfigurator cli default \
  --model-path nvidia/Qwen3-32B-NVFP4 \
  --total-gpus 64 --system b200_sxm \
  --backend vllm

更简单地说，--backend auto在一个命令中比较三个框架：

aiconfigurator cli default \
  --model-path nvidia/Qwen3-32B-NVFP4 \
  --total-gpus 64 --system b200_sxm \
  --backend auto

各后端的搜索过程相同；只有生成的部署构件不同，每个后端都以预期格式接收原生配置文件、CLI 参数和 K8s 清单。AIConfigurator 目前随附适用于 NVIDIA H100、H200 和 B200 系统的 TensorRT LLM 和 SGLang 的芯片验证性能数据，并在选定平台上提供 vLLM 支持。

用于 SGLang 的 WideEP 推理

SGLang 在运行“Wide Expert Parallelism” (WideEP) 时特别受欢迎，它通过将专家分布到大量 GPU 上，显著提高了 DeepSeek V3/ R1 等 MoE 模型的解码吞吐量。为了准确模拟 SGLang 的 WideEP 路径，AIConfigurator 模拟了 DeepEP 多对多通信、MTP、MLA 注意力、注意力 DP、工作负载感知 MoE 和专家并行负载均衡 (EPLB) 等关键元素。MoE 和 EPLB 建模面临着巨大的挑战。

WideEP 的 MoE 路由本身存在负载不平衡问题，一些专家获得的 tokens 比其他专家多。AIConfigurator 使用 Alpha 参数对这种规工作负载分布进行建模。此 alpha 可充当性能数据库中的查找键，将分布模式与收集的延迟配置文件关联起来，类似于标准 MoE 路径。根据经验，1.01 与 DeepSeek V3.1 非常适合跨数据集的预填充和解码。

在 WideEP 部署中，AIConfigurator 通过调整两个因子来模拟 EPLB，而不是直接模拟算法。首先，工作负载分布 Alpha 从 1.01 降低到 0.6，以反映专家复制的负载平滑。其次，将有效的 token 计数乘以 0.8，对每个 GPU token 负载最大值的经验性缩减进行建模。这些更改可选择正确的延迟曲线，并相应地调整操作点。

初步结果很有前景：AIConfigurator 确定的最佳配置与手动调整的生产配置保持一致。我们计划开展进一步合作，使其做好生产准备。

SGLang 社区如何做出贡献

Mooncake：AIConfigurator 中的初始 SGLang 支持

AIConfigurator 最初仅支持 TensorRT LLM，为 SGLang 和 vLLM 保留接口，而未完全实现。Mooncake ( Moonshot AI、清华大学等公司合作开发的开源项目) 的贡献者随后开发了 SGLang 后端的第一个版本。

他们首先完成了收集器层，对核心运算 ( GEMM、注意力、批量 GEMM) 进行建模和封装。这样可以快速支持 Llama、Qwen 和 DeepSeek 等模型。这项工作与随后的 SGLang WideEP 工作相结合，形成了 AIConfigurator 的第一个 SGLang 后端。

阿里巴巴：将 AIConfigurator 集成到 AI 服务堆栈中，实现自动化部署

AI 服务堆栈基于阿里 Kubernetes 容器服务 ( ACK) 构建，是一个端到端解决方案，可实现高效且可扩展的云原生 LLM 推理。它管理整个生命周期，提供部署、智能路由、自动扩展和深度可观测性。

在此堆栈中，阿里云大力助力的 SGLang 社区孵化 AI 编排引擎 RoleBasedGroup (RBG) 简化了 Kubernetes 上的 LLM 推理服务部署。RBG 使用“角色”作为其核心编排单元，将基于预填充 – 解码 – 分解的服务划分为路由器、预填充和解码角色，以协调它们的放置、缩放和更新。这可确保性能和稳定性的平衡，以及基于角色的可扩展性。

完整的 Dynamo 服务堆栈可以通过 ACK 上的 AI 服务堆栈进行部署，并利用 AIConfigurator 预测结果作为输入和 AIConfigurator 的生成器模块。ACK 团队可以为 RBG 生成可部署配置，请参阅参考这里。通过整合这一流程，阿里巴巴在 Qwen3-235B-FP8 模型上实现了 1.86 倍的吞吐量，同时将 TTFT 保持在 5000 毫秒以内，ITL 保持在 40 毫秒以内。

RBG 将继续跟踪 AIConfigurator 的进展，并为在 ACK 中快速部署新模型提供零日支持。

阿里巴巴：基于 AIConfigurator 构建 HiSim

AIConfigurator 可优化静态工作负载，但无法轻松对动态、突发生产流量、复杂调度和 KV 缓存动态进行建模。为了克服这一问题，阿里巴巴 TAIR KV 缓存团队创建了 Tair-KVCache-HiSim，这是一款轻量级、高保真的事件驱动型系统模拟器。

HiSim 通过系统级模拟来处理动态流量和队列 (预测可变速率和复杂调度 (如 SGLang) 下的 TTFT、TPOT 和吞吐量) 以及高级 KV 缓存优化 (量化多级存储和各种拆迁/ 预取策略的权衡) 。

HiSim 由工作负载生成器、全局路由器模拟器和推理引擎模拟器 (IES) 组成。IES 使用统一的全局时钟来协调调度器模拟器 (管理 LLM 请求：抢占、批处理) 、KVCache Manager Simulator ( HiCacheController，对三级 KV 缓存和驱逐进行建模) 和 BatchRunnerEstimator ( AIConfiguratorTimePredictor，根据 AIConfigurator 计算批量延迟) 。

此结构可快速适应各种推理引擎 ( vLLM、SGLang、TensorRT LLM) ，准确模拟现实世界的配置、运行时参数和执行语义 (并行、批处理、设备优化) ，无需修改引擎，从而确保高保真。

HiSim 通过配置调整来量化调度权衡 ( TTFT/ 吞吐量、队列/ 内存、缓存命中/ TTFT、重叠效率) ，从而指导 SGLang 研发，而无需更改代码。它通过估算性能上限和使用理论规格识别瓶颈，为新硬件提供“Oracle”评估。HiSim 还通过三级 KV 缓存设计 (例如，L2 大小、预取/ 驱逐策略、L3 带宽需求、写入与写入) 来帮助 HiCache 架构探索和成本/ 性能优化，以找到最佳性价比点。

利用 AIConfigurator，HiSim 将静态分析扩展到动态流量的主动、成本感知部署建议。端到端仿真与实际性能相比，误差在 5% 以内。未来的工作将加强这种合作，以构建一个高保真、生产就绪的系统模拟器。

AIConfigurator 的下一步发展

未来的路线图将 AIConfigurator 从独立的命令行工具扩展到 Dynamo 平台的核心组件：

更快的模型支持。 “混合”模式已通过光速估算提供首发日推荐；我们还将自动执行芯片数据采集流程，以加速经过全面验证的支持。
助力 Dynamo 部署。AIConfigurator 正在通过 DynamoGraphDeploymentRequest (DGDR) CRD 成为 Dynamo Kubernetes 流背后的配置引擎，通过单个 YAML 文件生成优化的部署。
动态工作负载建模。 从静态输入序列长度/ 输出序列长度/ 并发目标转向直接捕获生产工作负载分布的模型。

NVIDIA 计划继续与第三方合作，将 AIConfigurator 引入更多系统和工具。AIConfigurator 非常欢迎大家做出贡献，包括新硬件的性能数据、其他后端支持、新功能以及 HiSim 等扩展程序。

要开始使用，请查看 AIConfigurator 资源库，并查看 Dynamo 项目，了解设置解服务的最快方法。

有关完整的技术处理 (包括形式定义和验证结果) ，请阅读我们的论文：AIConfigurator：Lightning-Fast Configuration Optimization for Multi-Framework LLM Service.

从解服务中移除猜测

使用 AIConfigurator 配置解服务

扩展对多个框架的支持

用于 SGLang 的 WideEP 推理

SGLang 社区如何做出贡献

Mooncake：AIConfigurator 中的初始 SGLang 支持

阿里巴巴：将 AIConfigurator 集成到 AI 服务堆栈中，实现自动化部署

阿里巴巴：基于 AIConfigurator 构建 HiSim

AIConfigurator 的下一步发展

标签

关于作者

从解服务中移除猜测

使用 AIConfigurator 配置解服务

扩展对多个框架的支持

用于 SGLang 的 WideEP 推理

SGLang 社区如何做出贡献

Mooncake：AIConfigurator 中的初始 SGLang 支持

阿里巴巴：将 AIConfigurator 集成到 AI 服务堆栈中，实现自动化部署

阿里巴巴：基于 AIConfigurator 构建 HiSim

AIConfigurator 的下一步发展

标签

关于作者

相关文章

为机密 AI 工厂构建零信任架构

NVIDIA Vera Rubin POD：7 个芯片、5 个机架级系统、1 台 AI 超级计算机

如何使用 NVIDIA AI-Q 和 LangChain 构建用于企业搜索的深度智能体

借助 NVIDIA 构建 AI 网格：随时随地编排智能

NVIDIA Dynamo 1.0 如何助力量产级多节点推理