CUDA 计算图

2026年 7月 10日

NVIDIA CUDA 中的内核融合：优化内存流量并启动开销

针对 GPU 优化代码的方法有很多。在本文中，您将了解内核融合如何提高内存带宽并减少内核启动用度，

4 MIN READ

2026年 2月 3日

在 JAX 和 XLA 中加速长上下文模型训练

大语言模型（LLM）的上下文窗口正在迅速扩展，近期的模型已支持128K、256K甚至更长的词元序列。然而，

3 MIN READ

2026年 1月 26日

NVIDIA TensorRT for RTX 中的自适应推理可实现自动优化

传统上，在各种消费级硬件中部署 AI 应用需要进行权衡。可以针对特定 GPU 配置进行优化，以牺牲便携性为代价来提升性能；

3 MIN READ