Kai Xu

Kai Xu 是 NVIDIA 深度学习算法和软件团队的高级工程师,专门优化生成式 AI 的推理效率。在被 NVIDIA 收购之前,Hew 是 OmniML 的早期工程师。他获得亚利桑那州立大学计算机工程博士学位。

Posts by Kai Xu

代理式 AI/生成式 AI

使用 Skip Softmax 加速 NVIDIA TensorRT-LLM 中的长上下文推理

对于大规模部署 LLM 的机器学习工程师来说,这个等式既熟悉又无情:随着上下文长度的增加,注意力计算成本呈爆炸式增长。 4 MIN READ