Zhaoyuan He

Zhaoyuan He 是 NVIDIA TensorRTteam 的高级深度学习软件工程师,专门从事大语言模型的高效 GPU 推理。Histechnical 的兴趣涵盖了为现代推理框架提供支持的性能优化技术,包括内核开发、图形优化、运行时执行、量化以及采用集合通信优化的分布式推理。他致力于改进这些技术,为 NVIDIA 平台上的端到端 LLM 服务提供更高的吞吐量和更低的延迟。Zhaoyuan 拥有德克萨斯大学奥斯汀分校的计算机科学博士学位和计算机科学硕士学位。来自加州大学圣地亚哥分校的电气和计算机工程专业博士学位。

Posts by Zhaoyuan He

边缘计算

使用 NVIDIA TensorRT 和多设备推理支持,跨多个 GPU 扩展 AI 推理

生成式 AI 工作负载的显存和计算预算正迅速超出单个 GPU。对于构建媒体生成工作流的推理开发者而言, 4 MIN READ