Jun Yang

Jun Yang 是 NVIDIA 的高级工程总监，专注于 E2E AI 工作负载优化。目前，他正在领导 NVIDIA TensorRT-LLM 的整体工程工作。他拥有中国科学院计算技术研究所计算机架构硕士学位。

Posts by Jun Yang

智能体/生成式 AI 2025年 10月 20日

现代 AI 工作负载已远超单 GPU 推理服务的能力范围。模型并行技术通过在多个 GPU 之间高效划分计算任务， 3 MIN READ

数据中心/云端 2024年 8月 28日

大型语言模型 (LLM) 推理是一项全栈挑战。实现高吞吐量、低延迟推理需要强大的 GPU、高带宽 GPU 之间的互连、 4 MIN READ