NVIDIA 中国开发者日活动

开发者日活动旨在汇集来自全国的开发者、人工智能领域科技爱好者和行业领袖，共同探讨人工智能开发技术的最新趋势。
参与者将有机会听取来自行业专家的主题演讲、参与技术分论坛以及多种有趣互动活动，交流 NVIDIA 软件解决方案，涵盖大语言模型训练与推理、机器人 / 物理 AI、 NVIDIA 开发工具相关等方面的最新技术。开发者日活动为开发者们提供了一个独特的线下交流机会，希望参会朋友能从中学习交流并发现快速发展的人工智能技术生态中的合作机会。

活动日程

活动内容
9:30 ─ 9:40	欢迎致辞
9:40 ─ 10:20	加速即所需：NVIDIA 重塑创新生态 Marc Hamilton \| NVIDIA 解决方案架构和工程副总裁
10:20 ─ 11:00	利用 NVIDIA 解决方案构建物理 AI 舒引博 \| NVIDIA 解决方案与架构技术总监
11:00 ─ 12:00	聚焦开源大模型圆桌讨论成　晨｜魔搭高级技术运营专家缪宇航｜Minimax 研发工程师杨　军｜NVIDIA 计算架构高级总监尹良升｜SGLang 社区核心开发者魏英灿｜NVIDIA GPU 计算专家团队开发经理
12:00 ─ 12:10	NVIDIA 2025 Hackathon 总决赛颁奖仪式
13:30 ─ 16:30	分论坛：分论坛一 - 大语言模型训练与推理专场分论坛二 - 机器人 / 物理 AI 专场分论坛三 - NVIDIA 开发工具专场
13:00 ─ 20:00	NVIDIA 培训和认证： AI 实战培训 NVIDIA 认证现场考试

精彩技术分享

分论坛一

分论坛二

分论坛三

Tab Content

Tab Content 2

Tab Content 3

Tab Content

大语言模型训练与推理专场
13:30 ─ 14:15	在 NVIDIA GPU 上优化大语言模型训练与推理杨军 \| NVIDIA 计算架构高级总监本议题将系统讲解如何把 NVIDIA GPU 推至性能极限。内容覆盖端到端优化策略：从 kernel 与运行时调优、消除 Host 开销，到系统级调度和算法-系统协同设计。通过真实案例，你将学会如何借助精细的系统设计整合这些方法，获得显著性能提升。
14:15 ─ 15:00	SGLang：高效的开源大规模 LLM 服务框架鲍科 \| SGLang 社区核心开发者 SGLang 是一个开源的高性能大语言模型推理服务框架，已在众多头部企业中承担核心生产流量。本次分享将深入介绍 SGLang 的核心特性与关键性能优化技术，并结合实际部署案例，分享在大规模推理中的工程经验与优化洞察，最后展望 SGLang 的未来演进Roadmap。
15:00 ─ 15:45	TensorRT-LLM 中的大规模 EP（专家并行）优化朱恩伟 \| NVIDIA GPU 计算专家团队工程师 DeepSeek-V3/R1 采用超大规模、细粒度 MoE 架构，显著提升了开源模型质量，也给优化带来新挑战。本议题介绍 TensorRT-LLM 中大规模 Expert Parallelism（EP）的设计与实现：涵盖通信 kernel、专家负载均衡及多项 kernel/系统级优化，可显著减少 MoE 分组 GEMM 的内存访问，提升算子强度。
5:45 ─ 16:30	NVFP4 推理最佳实践薛博阳 \| NVIDIA GPU 计算专家团队工程师 NVFP4 是 NVIDIA Blackwell 系列引入的 4 位浮点低精度格式（E2M1：1 符号位/2 指数位/1 尾数位）。其核心创新为"双级微块缩放 + 高精度缩放因子"，在极低位宽下仍能将量化误差压到最低，从而大幅提升内存效率与吞吐，同时保持模型精度。

Tab Content

大语言模型训练与推理专场
13:30 ─ 14:15	在 NVIDIA GPU 上优化大语言模型训练与推理杨军 \| NVIDIA 计算架构高级总监本议题将系统讲解如何把 NVIDIA GPU 推至性能极限。内容覆盖端到端优化策略：从 kernel 与运行时调优、消除 Host 开销，到系统级调度和算法-系统协同设计。通过真实案例，你将学会如何借助精细的系统设计整合这些方法，获得显著性能提升。
14:15 ─ 15:00	SGLang：高效的开源大规模 LLM 服务框架鲍科 \| SGLang 社区核心开发者 SGLang 是一个开源的高性能大语言模型推理服务框架，已在众多头部企业中承担核心生产流量。本次分享将深入介绍 SGLang 的核心特性与关键性能优化技术，并结合实际部署案例，分享在大规模推理中的工程经验与优化洞察，最后展望 SGLang 的未来演进Roadmap。
15:00 ─ 15:45	TensorRT-LLM 中的大规模 EP（专家并行）优化朱恩伟 \| NVIDIA GPU 计算专家团队工程师 DeepSeek-V3/R1 采用超大规模、细粒度 MoE 架构，显著提升了开源模型质量，也给优化带来新挑战。本议题介绍 TensorRT-LLM 中大规模 Expert Parallelism（EP）的设计与实现：涵盖通信 kernel、专家负载均衡及多项 kernel/系统级优化，可显著减少 MoE 分组 GEMM 的内存访问，提升算子强度。
15:45 ─ 16:30	NVFP4 推理最佳实践薛博阳 \| NVIDIA GPU 计算专家团队工程师 NVFP4 是 NVIDIA Blackwell 系列引入的 4 位浮点低精度格式（E2M1：1 符号位/2 指数位/1 尾数位）。其核心创新为"双级微块缩放 + 高精度缩放因子"，在极低位宽下仍能将量化误差压到最低，从而大幅提升内存效率与吞吐，同时保持模型精度。

机器人 / 物理 AI 专场
13:30 ─ 14:15	Cosmos：为物理 AI 打开大门匡磊 \| NVIDIA 解决方案架构师 NVIDIA Cosmos™ 是专为物理 AI 打造的平台，集成最先进的生成式世界基础模型（WFM）、安全护栏以及加速数据治理管线。机器人需要海量、多样化的训练数据才能有效感知并与环境交互。借助 Cosmos WFM，开发者可生成可控、高保真的合成数据，用于训练机器人感知与策略网络。本次分享将介绍 Cosmos 最新更新及机器人蓝图。
14:15 ─ 15:00	感知·可视化·弥合 Sim2Real 鸿沟，让人形机器人落地何斌 \| 同济大学刘洁 \| NVIDIA GPU 计算专家团队工程师 Sim2Real 差距是机器人领域的热门难题。本演讲将介绍我们用于评估 Sim2Real 性能的基准流程，研究从底层关节控制入手，聚焦上半身运动；同时设计 AI 驱动执行器并给出完整训练闭环，显著缩小仿真到真机的差距。
15:00 ─ 15:45	Jetson Thor 释放物理 AI 实时推理郑涛 \| NVIDIA 解决方案资深架构师 NVIDIA Jetson Thor（2025 发布）是面向物理 AI 与机器人的最新边缘计算平台。本次议题将介绍其硬件/软件特性、高性能推理、低延迟及强大的多传感器数据处理能力，完美适配机器人端到端工作流。
15:45 ─ 16:30	Isaac 性能剖析与最佳实践康晖 \| NVIDIA 开发与技术部高级工程师 IsaacSim 性能分析与优化一直是用户关注焦点。本议题将手把手演示如何在 IsaacSim 中 profiling 工作负载、剖析性能瓶颈与行为，并给出相应的优化策略，帮助开发者更高效地使用 IsaacSim/Isaac Lab 及扩展插件。

NVIDIA 开发工具专场
13:30 ─ 14:15	GPU 计算与编程模型的演进：在异步计算中平衡吞吐与延迟刘冰 \| NVIDIA GPU 计算专家团队高级工程师本次议题聚焦 GPU CUDA 优化核心技术，从最大化计算性能、显存带宽利用率及降低延迟角度出发，通过分享 GPU 硬件与 CUDA 软件编程的协同演进路线与优化背后的第一性原理，展示硬件架构与算法设计的高效协同机制。最终结合 CUTLASS 等高性能框架工具实战案例，助力开发者加速AI训练/推理热点场景（如 DeepSeek V3/R1 大模型优化），释放 GPU 的极致性能。
14:15 ─ 15:00	CuTeDSL 的发展与应用：功能迭代、路线图及其作为代码生成后端的探索池宇希，方杰 \| NVIDIA GPU 计算专家团队高级工程师自今年 3 月 GTC 首秀以来，CuTeDSL 已历经多轮版本迭代，能力与生态迅速成熟。本次演讲将系统回顾其设计哲学与核心优势、关键特性、版本进展及产品路线图，并结合典型行业落地案例剖析部署路径与踩坑经验。此外，我们还将首次分享把 CuTeDSL 作为 TileLang 代码生成后端的初步探索。
15:00 ─ 15:45	基于性能分析的 LLM 优化余慜 \| NVIDIA GPU 计算专家团队高级工程师 LLM 开发中常遇性能不佳、拖尾进程、运行时卡顿等难题。本议题将介绍一套性能分析与诊断工具 - Nsight Systems、CUPTI、NVIDIA Resiliency Extension 及 PyTorch Profiler - 并通过实例演示其用法，帮助开发者快速定位瓶颈、提升系统效率。
15:45 ─ 16:30	NVIDIA Spectrum-X 以太网软件参考架构宋庆春 \| NVIDIA 网络亚太区高级总监 Spectrum-X 以太网是首款专为 AI 打造的以太网互连平台，已成为大型 AI 工厂与 AI 云的事实标准, 也是目前唯一经过验证、可高效连接超 10 万卡 GPU 集群的以太网方案。其软件参考架构涵盖了 NVIDIA 网络端到端软件，包括设备固件、DOCA、NetQ、Cumulus、NCCL、CloudAI 等全套软件栈，客户可借此在最短时间内构建 AI 工厂并获得最优 AI 性能。

报名免费的 AI 实战培训和认证

NVIDIA 深度学习培训中心 (DLI) 面向开发者，提供前沿技术领域的 AI 应用开发实战培训。使用完全配置的云端实验环境，边学边练，迅速掌握开发技能和最佳实践。进一步考取 NVIDIA 认证，解锁新机遇。

免费报名 2 门 AI 实战培训和 3 门 Associate 级别 NVIDIA 认证，每门限 100 席。另有 5 门 Professional 级别认证可供选择。

13:00 — 15:00 培训 1《使用 NVIDIA Earth-2 部署 AI 天气模型》
- 适用学员：学生、学习物理引导的深度模型，对深度学习应用感兴趣的爱好者，以及金融、农业、能源、气象等领域人士。
15:30 —17:30 培训 2《大语言模型 —— RAG 智能体入门》
- 适用学员：适合具备深度学习基础，熟悉 PyTorch 并有一定迁移学习经验更佳。有 Python 编程经验，了解面向对象编程和基础库。
18:00 ─ 20:00 NVIDIA 认证现场考试查看 8 门可选认证科目
- 免费报名 3 门 Associate 级别认证
- 5 门 Professional 级别认证可购买考试券参加点此购买考试券

预约课程和考位，席位有限，先到先得，以收到确认邮件为准。

报名截止

参会申请流程

注册或者登陆开发者账号

参加活动需要拥有 NVIDIA 开发者帐户。

申请参加活动

填写申请表，根据您的时间安排申请可以参加以及感兴趣的活动。

等待电子邮件及短信确认

当您参会申请获得批准后，您将收到一封欢迎电子邮件。请确保将 noreply@tmail.nvidia.cn 域名添加到您的安全列表中，以避免电子邮件被标记为垃圾邮件。确认短信也将同步发送至您的手机，请注意查收。

到现场参加活动

现场参加活动

主要演讲嘉宾

Marc Hamilton

NVIDIA 解决方案架构和工程副总裁

刘念宁

NVIDIA 全球副总裁

Ankit Patel

NVIDIA 开发者市场资深总监

舒引博

NVIDIA 解决方案与架构技术总监

成晨

阿里云高级技术运营专家

杨军

NVIDIA 计算架构高级总监

尹良升

SGLang 社区核心开发者

魏英灿

NVIDIA GPU 计算专家团队开发经理

缪宇航

Minimax 研发工程师

何斌

同济大学教授

鲍科

SGLang 社区核心开发者

AI 实战培训讲师

王吉阳

NVIDIA 深度学习培训中心 (DLI) 资深讲师

黄钰淇

NVIDIA 深度学习培训中心 (DLI) 技术经理

活动报名已截止，欢迎继续了解 NVIDIA 更多活动信息

了解更多

NVIDIA 中国开发者日活动

活动日程

精彩技术分享

大语言模型训练与推理专场

机器人 / 物理 AI 专场

NVIDIA 开发工具专场

报名免费的 AI 实战培训和认证

参会申请流程

注册或者登陆开发者账号

申请参加活动

等待电子邮件及短信确认

到现场参加活动

主要演讲嘉宾

Marc Hamilton

刘念宁

Ankit Patel

舒引博

成晨

杨军

尹良升

魏英灿

缪宇航

何斌

鲍科

AI 实战培训讲师

王吉阳

黄钰淇

2024 NVIDIA 中国开发者日回顾