Kunlun Li

Kunlun Li 是 NVIDIA 的 AI 开发者和技术工程师,专门从事 LLM 训练的 CUDA 编程和性能优化。他为 FP8 训练、上下文并行、Megatron-Core 中的内核优化和 Transformer-Engine 等关键功能做出了贡献。

Posts by Kunlun Li

智能体/生成式 AI

借助动态上下文并行和 NVIDIA Megatron Core 加速可变长度训练

本文将介绍动态上下文并行(Dynamic Context Parallelism,Dynamic-CP), 4 MIN READ