Dynamo
2026年 5月 29日
DynoSim:模拟帕累托前沿
现代 LLM 服务难以调优,因为每一次部署都是一组相互作用的选择堆栈:模型后端、张量并行形状、prefill/decode 拆分、
3 MIN READ
2026年 5月 27日
NVIDIA Dynamo Snapshot:面向 Kubernetes 上推理工作负载的快速启动
在生产环境中的推理部署里,需求会随时间波动,因此推理副本需要弹性扩缩容。然而,在 Kubernetes 上冷启动推理工作负载可能需要几分钟。
4 MIN READ