Rohan Varma

Rohan Varma 是 NVIDIA 的 AI 开发技术工程师。他专注于优化 NVIDIA 推理解决方案,包括 Dynamo、Grove 和 TensorRT-LLM。他拥有密歇根大学安娜堡分校的计算机科学硕士学位。他喜欢赛车游戏、钢琴和大多数球拍运动。

Posts by Rohan Varma

数据中心/云端

在 Kubernetes 上部署解 LLM 推理工作负载

随着大语言模型 (LLM) 推理工作负载的复杂性不断增加,单个单一的服务进程开始达到其极限。预填充和解码阶段具有截然不同的计算配置文件, 4 MIN READ
智能体/生成式 AI

使用 NVIDIA Grove 简化 Kubernetes 上的复杂 AI 推理

NVIDIA Dynamo 的新组件实现分布式推理的高效扩展 2 MIN READ