Roman Anders

Roman Anders 是 NVIDIA cuDNN 团队的软件工程师,专注于当前和新一代 GPU 架构中推理和训练工作负载的 Flash Attention 优化。他在 NVIDIA 的贡献涵盖 RNN、矩阵乘法和卷积。此前,他曾在英特尔 MKL 团队担任工程师,负责开发稀疏 BLAS、DirectSparse 求解器和 FFT。他拥有俄罗斯新西伯利亚国立大学应用数学和编程硕士学位。

Posts by Roman Anders

智能体/生成式 AI

借助 NVIDIA Blackwell Ultra 提升 Softmax 的效率

LLM 上下文长度呈爆炸式增长,架构正朝着更复杂的注意力机制发展,例如多头潜在注意力(MLA)和分组查询注意力(GQA)。因此, 2 MIN READ