AI 编码助手能否编写高效的 CUDA 代码?为了更准确地衡量并提升其能力,我们构建了 ComputeEval,一个可靠且开源的基准测试工具,用于评估 AI 模型和智能体在 CUDA 编程任务中的表现。
几个月前,我们发布了 ComputeEval 的首个版本,今天,我们推出其首次重大扩展,新增一百多个 CUDA 挑战。
随着此版本的发布,该数据集已扩展至共包含 232 个 CUDA 及 CUDA 计算核心库(CCCL)相关问题。我们有针对性地引入了更多复杂挑战,要求大语言模型运用现代 CUDA 技术,例如 Tensor Core、高级共享内存模式以及线程束级基元,从而提升了测试标准。新增问题重点考察对 CUDA 图、流和事件等机制的协调能力,并置于动态模拟等真实应用场景之中。
CUDA 编程方面的 LLM 性能
我们的团队在 ComputeEval 上对多个领先的大语言模型进行了评估,旨在建立基准性能指标,并深入理解 AI 辅助 CUDA 编程的当前发展状况(见表 1)。
| Model | ComputeEval 2025.2 232 新问题集上的一次通过率 |
ComputeEval 2025.1 128 问题集上的一次通过率 |
| GPT-5(中) | 0.5819 | 0.61 |
| Cloude Sonnet 4.0 | 0.5517 | 0.64 |
| gpt-oss-20B(高) | 0.5474 | N/A |
| gpt-oss-120b(高) | 0.5302 | N/A |
| Claude Opus 4.0 | 0.5216 | N/A |
| DeepSeek-R1 | 0.4397 | 0.55 |
| gpt-oss-120b(中) | 0.4224 | N/A |
| gpt-oss-20b(中) | 0.4224 | N/A |
| gpt-oss-120b(低) | 0.4052 | N/A |
| DeepSeek-V3.1 | 0.3750 | 0.44 |
| Llama 4 Maverick 17B 128E | 0.3448 | 0.47 |
| Llama 3.1 405B | 0.3405 | 0.4 |
我们注意到,随着迁移到 ComputeEval 2025.2,所有模型的得分均有所下降。这并不意味着模型能力在减弱,而是反映出该基准测试的难度有所提升。随着每个版本的发布,我们不断提高对人工智能的要求,推动其更深入地理解加速计算中的各种细微之处。
下一步计划以及参与方式
我们将持续扩展数据集与评估框架的功能,目前已着手将 ComputeEval 的覆盖范围延伸至更多 CUDA-X 库,包括 cuBLAS、CUTLASS、cuDNN 和 RAPIDS 等。我们诚邀更广泛的 HPC 与 AI 社区参与贡献、开展合作。欢迎在 GitHub 上查阅代码,并通过 Hugging Face 获取相关数据集。