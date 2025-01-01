开发者日活动旨在汇集来自全国的开发者、人工智能领域科技爱好者和行业领袖，共同探讨人工智能开发技术的最新趋势。
参与者将有机会听取来自行业专家的主题演讲、参与技术分论坛以及多种有趣互动活动， 交流 NVIDIA 软件解决方案 ，涵盖大语言模型训练与推理、机器人 / 物理 AI、 NVIDIA 开发工具相关等方面的最新技术。开发者日活动为开发者们提供了一个独特的线下交流机会，希望参会朋友能从中学习交流并发现快速发展的人工智能技术生态中的合作机会。
活动日程
|
活动内容
|
9:30 ─ 9:40
|
欢迎致辞
|
9:40 ─ 10:20
|
加速即所需：NVIDIA 重塑创新生态
Marc Hamilton | NVIDIA 解决方案架构和工程副总裁
|
10:20 ─ 11:00
|
利用 NVIDIA 解决方案构建物理 AI
舒引博 | NVIDIA 解决方案与架构技术总监
|
11:00 ─ 12:00
|
聚焦开源大模型圆桌讨论
成 晨｜魔搭高级技术运营专家
缪宇航｜Minimax 研发工程师
杨 军｜NVIDIA 计算架构高级总监
尹良升｜SGLang 社区核心开发者
魏英灿｜NVIDIA GPU 计算专家团队开发经理
|
12:00 ─ 12:10
|
NVIDIA 2025 Hackathon 总决赛颁奖仪式
|
13:30 ─ 16:30
|
分论坛：
|
13:00 ─ 20:00
|
NVIDIA 培训和认证：
精彩技术分享
|
大语言模型训练与推理专场
|
13:30 ─ 14:15
|
在 NVIDIA GPU 上优化大语言模型训练与推理
杨军 | NVIDIA 计算架构高级总监本议题将系统讲解如何把 NVIDIA GPU 推至性能极限。内容覆盖端到端优化策略：从 kernel 与运行时调优、消除 Host 开销，到系统级调度和算法-系统协同设计。通过真实案例，你将学会如何借助精细的系统设计整合这些方法，获得显著性能提升。
|
14:15 ─ 15:00
|
SGLang：高效的开源大规模 LLM 服务框架
鲍科 | SGLang 社区核心开发者SGLang 是一个开源的高性能大语言模型推理服务框架，已在众多头部企业中承担核心生产流量。本次分享将深入介绍 SGLang 的核心特性与关键性能优化技术，并结合实际部署案例，分享在大规模推理中的工程经验与优化洞察，最后展望 SGLang 的未来演进Roadmap。
|
15:00 ─ 15:45
|
TensorRT-LLM 中的大规模 EP（专家并行）优化
朱恩伟 | NVIDIA GPU 计算专家团队工程师DeepSeek-V3/R1 采用超大规模、细粒度 MoE 架构，显著提升了开源模型质量，也给优化带来新挑战。本议题介绍 TensorRT-LLM 中大规模 Expert Parallelism（EP）的设计与实现：涵盖通信 kernel、专家负载均衡及多项 kernel/系统级优化，可显著减少 MoE 分组 GEMM 的内存访问，提升算子强度。
|
5:45 ─ 16:30
|
NVFP4 推理最佳实践
薛博阳 | NVIDIA GPU 计算专家团队工程师NVFP4 是 NVIDIA Blackwell 系列引入的 4 位浮点低精度格式（E2M1：1 符号位/2 指数位/1 尾数位）。其核心创新为"双级微块缩放 + 高精度缩放因子"，在极低位宽下仍能将量化误差压到最低，从而大幅提升内存效率与吞吐，同时保持模型精度。
机器人 / 物理 AI 专场
|
13:30 ─ 14:15
|
Cosmos：为物理 AI 打开大门
匡磊 | NVIDIA 解决方案架构师NVIDIA Cosmos™ 是专为物理 AI 打造的平台，集成最先进的生成式世界基础模型（WFM）、安全护栏以及加速数据治理管线。机器人需要海量、多样化的训练数据才能有效感知并与环境交互。借助 Cosmos WFM，开发者可生成可控、高保真的合成数据，用于训练机器人感知与策略网络。本次分享将介绍 Cosmos 最新更新及机器人蓝图。
|
14:15 ─ 15:00
|
感知·可视化·弥合 Sim2Real 鸿沟，让人形机器人落地
何斌 | 同济大学
|
15:00 ─ 15:45
|
Jetson Thor 释放物理 AI 实时推理
郑涛 | NVIDIA 解决方案资深架构师NVIDIA Jetson Thor（2025 发布）是面向物理 AI 与机器人的最新边缘计算平台。本次议题将介绍其硬件/软件特性、高性能推理、低延迟及强大的多传感器数据处理能力，完美适配机器人端到端工作流。
|
15:45 ─ 16:30
|
Isaac 性能剖析与最佳实践
康晖 | NVIDIA 开发与技术部高级工程师IsaacSim 性能分析与优化一直是用户关注焦点。本议题将手把手演示如何在 IsaacSim 中 profiling 工作负载、剖析性能瓶颈与行为，并给出相应的优化策略，帮助开发者更高效地使用 IsaacSim/Isaac Lab 及扩展插件。
|
NVIDIA 开发工具专场
|
13:30 ─ 14:15
|
GPU 计算与编程模型的演进：在异步计算中平衡吞吐与延迟
刘冰 | NVIDIA GPU 计算专家团队高级工程师本次议题聚焦 GPU CUDA 优化核心技术，从最大化计算性能、显存带宽利用率及降低延迟角度出发，通过分享 GPU 硬件与 CUDA 软件编程的协同演进路线与优化背后的第一性原理，展示硬件架构与算法设计的高效协同机制。最终结合 CUTLASS 等高性能框架工具实战案例，助力开发者加速AI训练/推理热点场景（如 DeepSeek V3/R1 大模型优化），释放 GPU 的极致性能。
|
14:15 ─ 15:00
|
CuTeDSL 的发展与应用：功能迭代、路线图及其作为代码生成后端的探索
池宇希，方杰 | NVIDIA GPU 计算专家团队高级工程师自今年 3 月 GTC 首秀以来，CuTeDSL 已历经多轮版本迭代，能力与生态迅速成熟。本次演讲将系统回顾其设计哲学与核心优势、关键特性、版本进展及产品路线图，并结合典型行业落地案例剖析部署路径与踩坑经验。此外，我们还将首次分享把 CuTeDSL 作为 TileLang 代码生成后端的初步探索。
|
15:00 ─ 15:45
|
基于性能分析的 LLM 优化
余慜 | NVIDIA GPU 计算专家团队高级工程师LLM 开发中常遇性能不佳、拖尾进程、运行时卡顿等难题。本议题将介绍一套性能分析与诊断工具 - Nsight Systems、CUPTI、NVIDIA Resiliency Extension 及 PyTorch Profiler - 并通过实例演示其用法，帮助开发者快速定位瓶颈、提升系统效率。
|
15:45 ─ 16:30
|
NVIDIA Spectrum-X 以太网软件参考架构
宋庆春 | NVIDIA 网络亚太区高级总监Spectrum-X 以太网是首款专为 AI 打造的以太网互连平台，已成为大型 AI 工厂与 AI 云的事实标准, 也是目前唯一经过验证、可高效连接超 10 万卡 GPU 集群的以太网方案。其软件参考架构涵盖了 NVIDIA 网络端到端软件， 包括设备固件、DOCA、NetQ、Cumulus、NCCL、CloudAI 等全套软件栈，客户可借此在最短时间内构建 AI 工厂并获得最优 AI 性能。