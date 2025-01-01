13:30 ─ 14:15 在 NVIDIA GPU 上优化大语言模型训练与推理 杨军 | NVIDIA 计算架构高级总监 本议题将系统讲解如何把 NVIDIA GPU 推至性能极限。内容覆盖端到端优化策略：从 kernel 与运行时调优、消除 Host 开销，到系统级调度和算法-系统协同设计。通过真实案例，你将学会如何借助精细的系统设计整合这些方法，获得显著性能提升。 本议题将系统讲解如何把 NVIDIA GPU 推至性能极限。内容覆盖端到端优化策略：从 kernel 与运行时调优、消除 Host 开销，到系统级调度和算法-系统协同设计。通过真实案例，你将学会如何借助精细的系统设计整合这些方法，获得显著性能提升。

14:15 ─ 15:00 SGLang：高效的开源大规模 LLM 服务框架 鲍科 | SGLang 社区核心开发者 SGLang 是一个开源的高性能大语言模型推理服务框架，已在众多头部企业中承担核心生产流量。本次分享将深入介绍 SGLang 的核心特性与关键性能优化技术，并结合实际部署案例，分享在大规模推理中的工程经验与优化洞察，最后展望 SGLang 的未来演进Roadmap。

15:00 ─ 15:45 TensorRT-LLM 中的大规模 EP（专家并行）优化 朱恩伟 | NVIDIA GPU 计算专家团队工程师 DeepSeek-V3/R1 采用超大规模、细粒度 MoE 架构，显著提升了开源模型质量，也给优化带来新挑战。本议题介绍 TensorRT-LLM 中大规模 Expert Parallelism（EP）的设计与实现：涵盖通信 kernel、专家负载均衡及多项 kernel/系统级优化，可显著减少 MoE 分组 GEMM 的内存访问，提升算子强度。