Tailai Ma

Tailai Ma 是 NVIDIA 加速计算专家,博士毕业于北京大学。目前主要从事 CUDA kernel 优化和 LLM 训练加速,致力于 Megatron Core 和 TransformerEngine 的开发和优化。

Posts by Tailai Ma

智能体/生成式 AI

借助动态上下文并行和 NVIDIA Megatron Core 加速可变长度训练

本文介绍了应用于 NVIDIA Megatron Core 中的一种新型调度方法 — — 动态上下文并行 (Dynamic-CP) , 4 MIN READ