NVIDIA 中国开发者日活动

中国・苏州 2025 年 11 月 14 日

立即注册

开发者日活动旨在汇集来自全国的开发者、人工智能领域科技爱好者和行业领袖,共同探讨人工智能开发技术的最新趋势。
参与者将有机会听取来自行业专家的主题演讲、参与技术分论坛以及多种有趣互动活动, 交流 NVIDIA 软件解决方案 ,涵盖大语言模型训练与推理、机器人 / 物理 AI、 NVIDIA 开发工具相关等方面的最新技术。开发者日活动为开发者们提供了一个独特的线下交流机会,希望参会朋友能从中学习交流并发现快速发展的人工智能技术生态中的合作机会。

活动日程

活动內容
9:30 ─ 9:40
欢迎致辞
9:40 ─ 10:20
加速即所需:NVIDIA 重塑创新生态
Marc Hamilton | NVIDIA 解决方案架构和工程副总裁
10:20 ─ 11:00
利用 NVIDIA 解决方案构建物理 AI
舒引博 | NVIDIA 解决方案与架构技术总监
11:00 ─ 12:00
圆桌讨论
12:00 ─ 12:10
NVIDIA 2025 Hackathon 总决赛颁奖仪式
13:30 ─ 16:30
分论坛:
  • 分论坛一 - 大语言模型训练与推理专场

  • 分论坛二 - 机器人 / 物理 AI 专场

  • 分论坛三 - NVIDIA 开发工具专场

13:00 ─ 20:00
NVIDIA 培训和认证:
  • AI 实战培训

  • NVIDIA 认证现场考试

精彩技术分享

Tab Content

Tab Content 2

Tab Content 3

Tab Content

大语言模型训练与推理专场
13:30 ─ 14:15
在 NVIDIA GPU 上优化大语言模型训练与推理

杨军 | NVIDIA 计算架构高级总监

本议题将系统讲解如何把 NVIDIA GPU 推至性能极限。内容覆盖端到端优化策略:从 kernel 与运行时调优、消除 Host 开销,到系统级调度和算法-系统协同设计。通过真实案例,你将学会如何借助精细的系统设计整合这些方法,获得显著性能提升。
14:15 ─ 15:00
SGLang:高效的开源大规模 LLM 服务框架

鲍科 | SGLang 社区核心开发者

SGLang 是一个开源的高性能大语言模型推理服务框架,已在众多头部企业中承担核心生产流量。本次分享将深入介绍 SGLang 的核心特性与关键性能优化技术,并结合实际部署案例,分享在大规模推理中的工程经验与优化洞察,最后展望 SGLang 的未来演进Roadmap。
15:00 ─ 15:45
TensorRT-LLM 中的大规模 EP(专家并行)优化

朱恩伟 | NVIDIA GPU 计算专家团队工程师

DeepSeek-V3/R1 采用超大规模、细粒度 MoE 架构,显著提升了开源模型质量,也给优化带来新挑战。本议题介绍 TensorRT-LLM 中大规模 Expert Parallelism(EP)的设计与实现:涵盖通信 kernel、专家负载均衡及多项 kernel/系统级优化,可显著减少 MoE 分组 GEMM 的内存访问,提升算子强度。
5:45 ─ 16:30
NVFP4 推理最佳实践

薛博阳 | NVIDIA GPU 计算专家团队工程师

NVFP4 是 NVIDIA Blackwell 系列引入的 4 位浮点低精度格式(E2M1:1 符号位/2 指数位/1 尾数位)。其核心创新为"双级微块缩放 + 高精度缩放因子",在极低位宽下仍能将量化误差压到最低,从而大幅提升内存效率与吞吐,同时保持模型精度。

Tab Content

Tab Content

大语言模型训练与推理专场

13:30 ─ 14:15
在 NVIDIA GPU 上优化大语言模型训练与推理

杨军 | NVIDIA 计算架构高级总监

本议题将系统讲解如何把 NVIDIA GPU 推至性能极限。内容覆盖端到端优化策略:从 kernel 与运行时调优、消除 Host 开销,到系统级调度和算法-系统协同设计。通过真实案例,你将学会如何借助精细的系统设计整合这些方法,获得显著性能提升。
14:15 ─ 15:00
SGLang:高效的开源大规模 LLM 服务框架

鲍科 | SGLang 社区核心开发者

SGLang 是一个开源的高性能大语言模型推理服务框架,已在众多头部企业中承担核心生产流量。本次分享将深入介绍 SGLang 的核心特性与关键性能优化技术,并结合实际部署案例,分享在大规模推理中的工程经验与优化洞察,最后展望 SGLang 的未来演进Roadmap。
15:00 ─ 15:45
TensorRT-LLM 中的大规模 EP(专家并行)优化

朱恩伟 | NVIDIA GPU 计算专家团队工程师

DeepSeek-V3/R1 采用超大规模、细粒度 MoE 架构,显著提升了开源模型质量,也给优化带来新挑战。本议题介绍 TensorRT-LLM 中大规模 Expert Parallelism(EP)的设计与实现:涵盖通信 kernel、专家负载均衡及多项 kernel/系统级优化,可显著减少 MoE 分组 GEMM 的内存访问,提升算子强度。
15:45 ─ 16:30
NVFP4 推理最佳实践

薛博阳 | NVIDIA GPU 计算专家团队工程师

NVFP4 是 NVIDIA Blackwell 系列引入的 4 位浮点低精度格式(E2M1:1 符号位/2 指数位/1 尾数位)。其核心创新为"双级微块缩放 + 高精度缩放因子",在极低位宽下仍能将量化误差压到最低,从而大幅提升内存效率与吞吐,同时保持模型精度。

机器人 / 物理 AI 专场

13:30 ─ 14:15
Cosmos:为物理 AI 打开大门

匡磊 | NVIDIA 解决方案架构师

NVIDIA Cosmos™ 是专为物理 AI 打造的平台,集成最先进的生成式世界基础模型(WFM)、安全护栏以及加速数据治理管线。机器人需要海量、多样化的训练数据才能有效感知并与环境交互。借助 Cosmos WFM,开发者可生成可控、高保真的合成数据,用于训练机器人感知与策略网络。本次分享将介绍 Cosmos 最新更新及机器人蓝图。
14:15 ─ 15:00
感知·可视化·弥合 Sim2Real 鸿沟,让人形机器人落地

何斌 | 同济大学
刘洁 | NVIDIA GPU 计算专家团队工程师

Sim2Real 差距是机器人领域的热门难题。本演讲将介绍我们用于评估 Sim2Real 性能的基准流程,研究从底层关节控制入手,聚焦上半身运动;同时设计 AI 驱动执行器并给出完整训练闭环,显著缩小仿真到真机的差距。
15:00 ─ 15:45
Jetson Thor 释放物理 AI 实时推理

郑涛 | NVIDIA 解决方案资深架构师

NVIDIA Jetson Thor(2025 发布)是面向物理 AI 与机器人的最新边缘计算平台。本次议题将介绍其硬件/软件特性、高性能推理、低延迟及强大的多传感器数据处理能力,完美适配机器人端到端工作流。
15:45 ─ 16:30
Isaac 性能剖析与最佳实践

康晖 | NVIDIA 开发与技术部高级工程师

IsaacSim 性能分析与优化一直是用户关注焦点。本议题将手把手演示如何在 IsaacSim 中 profiling 工作负载、剖析性能瓶颈与行为,并给出相应的优化策略,帮助开发者更高效地使用 IsaacSim/Isaac Lab 及扩展插件。

NVIDIA 开发工具专场

13:30 ─ 14:15
GPU 计算与编程模型的演进:在异步计算中平衡吞吐与延迟

刘冰 | NVIDIA GPU 计算专家团队高级工程师

本次议题聚焦 GPU CUDA 优化核心技术,从最大化计算性能、显存带宽利用率及降低延迟角度出发,通过分享 GPU 硬件与 CUDA 软件编程的协同演进路线与优化背后的第一性原理,展示硬件架构与算法设计的高效协同机制。最终结合 CUTLASS 等高性能框架工具实战案例,助力开发者加速AI训练/推理热点场景(如 DeepSeek V3/R1 大模型优化),释放 GPU 的极致性能。
14:15 ─ 15:00
CuTeDSL 的发展与应用:功能迭代、路线图及其作为代码生成后端的探索

池宇希,方杰 | NVIDIA GPU 计算专家团队高级工程师

自今年 3 月 GTC 首秀以来,CuTeDSL 已历经多轮版本迭代,能力与生态迅速成熟。本次演讲将系统回顾其设计哲学与核心优势、关键特性、版本进展及产品路线图,并结合典型行业落地案例剖析部署路径与踩坑经验。此外,我们还将首次分享把 CuTeDSL 作为 TileLang 代码生成后端的初步探索。
15:00 ─ 15:45
面向 LLM 的性能剖析驱动优化

余慜 | NVIDIA GPU 计算专家团队高级工程师

大模型开发中常遇性能不佳、拖尾进程、运行时卡顿等难题。本议题将介绍一套性能分析与诊断工具 —— Nsight Systems、CUPTI、NVIDIA Resiliency Extension 及 PyTorch Profiler ——并通过实例演示其用法,帮助开发者快速定位瓶颈、提升系统效率。
15:45 ─ 16:30
NVIDIA Spectrum-X 软件参考架构

宋庆春 | NVIDIA 网络亚太区高级总监

Spectrum-X 是首款专为 AI 打造的以太网互连平台,已成为大型 AI 工厂与 AI 云的事实标准, 也是目前唯一经过验证、可高效连接超 10 万卡 GPU 集群的以太网方案。其软件参考架构涵盖了 NVIDIA 网络端到端软件, 包括设备固件、DOCA、NetQ、Cumulus、NCCL、CloudAI 等全套软件栈,客户可借此在最短时间内构建 AI 工厂并获得最优 AI 性能。
img-alt-text

报名免费的 AI 实战培训和认证

NVIDIA 深度学习培训中心 (DLI) 面向开发者,提供前沿技术领域的 AI 应用开发实战培训。使用完全配置的云端实验环境,边学边练,迅速掌握开发技能和最佳实践。进一步考取 NVIDIA 认证,解锁新机遇。

免费报名 2 门 AI 实战培训和 3 门 Associate 级别 NVIDIA 认证,每门限 100 席。另有 5 门 Professional 级别认证可供选择。

预约课程和考位,席位有限,先到先得,以收到确认邮件为准。

立即报名

参会申请流程

Placeholder
注册或者登陆开发者账号

参加活动需要拥有 NVIDIA 开发者帐户。

Placeholder
申请参加活动

填写申请表,根据您的时间安排申请可以参加以及感兴趣的活动。

Placeholder
等待电子邮件及短信确认

当您参会申请获得批准后,您将收到一封欢迎电子邮件。请确保将 noreply@tmail.nvidia.cn 域名添加到您的安全列表中,以避免电子邮件被标记为垃圾邮件。确认短信也将同步发送至您的手机,请注意查收。

Placeholder
到现场参加活动

现场参加活动

主要演讲嘉宾

Placeholder

Marc Hamilton

NVIDIA 解决方案架构和工程副总裁 

Placeholder

刘念宁

NVIDIA 全球副总裁

Placeholder

Ankit Patel

NVIDIA 开发者市场资深总监

Placeholder

舒引博

NVIDIA 解决方案与架构技术总监

Placeholder

成晨

阿里云高级技术运营专家

Placeholder

杨军

NVIDIA 计算架构高级总监

Placeholder

尹良升

SGLang 社区核心开发者

Placeholder

魏英灿

NVIDIA GPU 计算专家团队开发经理

AI 实战培训讲师

Placeholder

王吉阳

NVIDIA 深度学习培训中心 (DLI) 资深讲师心 (DLI) 技术经理

Placeholder

黄钰淇

NVIDIA 深度学习培训中心 (DLI) 技术经理

注册参加开发者日,选择您感兴趣的活动并与在场行业专家和同道中人交流互动。

立即报名


2024 NVIDIA 中国开发者日回顾