Posts by Kai Xu
代理式 AI/生成式 AI
2025年 12月 16日
使用 Skip Softmax 加速 NVIDIA TensorRT-LLM 中的长上下文推理
对于大规模部署 LLM 的机器学习工程师来说,这个等式既熟悉又无情:随着上下文长度的增加,注意力计算成本呈爆炸式增长。
4 MIN READ