Dan Feigin

Dan Feigin 是 NVIDIA 的高级软件工程师,专注于容器状态恢复和 GPU 检查点/ 恢复机制。他专注于开发利用快照恢复、CRIU 和 CUDA 的解决方案,以更大限度地缩短 Kubernetes 上大规模推理服务和部分 GPU 工作负载的启动时间。

Posts by Dan Feigin

精选

NVIDIA Dynamo Snapshot:面向 Kubernetes 上推理工作负载的快速启动

在生产环境中的推理部署里,需求会随时间波动,因此推理副本需要弹性扩缩容。然而,在 Kubernetes 上冷启动推理工作负载可能需要几分钟。 4 MIN READ