Kunlun Li

Kunlun Li 是 NVIDIA 加速计算专家,硕士毕业于南京大学。目前主要从事 LLM 训练及 CUDA 编程和性能优化,致力于 Megatron Core 和 TransformerEngine 中的 FP8 训练、上下文并行、内核开发优化等功能的开发和优化。

Posts by Kunlun Li

智能体/生成式 AI

借助动态上下文并行和 NVIDIA Megatron Core 加速可变长度训练

本文介绍了应用于 NVIDIA Megatron Core 中的一种新型调度方法 — — 动态上下文并行 (Dynamic-CP) , 4 MIN READ