代理式 AI/生成式 AI

使用 ComputeEval 2025.2 对 AI 生成的 CUDA 代码进行 LLM 基准测试

AI 编码助手能否编写高效的 CUDA 代码?为了更准确地衡量并提升其能力,我们构建了 ComputeEval,一个可靠且开源的基准测试工具,用于评估 AI 模型和智能体在 CUDA 编程任务中的表现。

几个月前,我们发布了 ComputeEval 的首个版本,今天,我们推出其首次重大扩展,新增一百多个 CUDA 挑战。

随着此版本的发布,该数据集已扩展至共包含 232 个 CUDA 及 CUDA 计算核心库(CCCL)相关问题。我们有针对性地引入了更多复杂挑战,要求大语言模型运用现代 CUDA 技术,例如 Tensor Core、高级共享内存模式以及线程束级基元,从而提升了测试标准。新增问题重点考察对 CUDA 图、流和事件等机制的协调能力,并置于动态模拟等真实应用场景之中。

CUDA 编程方面的 LLM 性能

我们的团队在 ComputeEval 上对多个领先的大语言模型进行了评估,旨在建立基准性能指标,并深入理解 AI 辅助 CUDA 编程的当前发展状况(见表 1)。

Model ComputeEval 2025.2
232 新问题集上的一次通过率
ComputeEval 2025.1
128 问题集上的一次通过率
GPT-5(中) 0.5819 0.61
Cloude Sonnet 4.0 0.5517 0.64
gpt-oss-20B(高) 0.5474 N/A
gpt-oss-120b(高) 0.5302 N/A
Claude Opus 4.0 0.5216 N/A
DeepSeek-R1 0.4397 0.55
gpt-oss-120b(中) 0.4224 N/A
gpt-oss-20b(中) 0.4224 N/A
gpt-oss-120b(低) 0.4052 N/A
DeepSeek-V3.1 0.3750 0.44
Llama 4 Maverick 17B 128E 0.3448 0.47
Llama 3.1 405B 0.3405 0.4
表 1 显示,在 ComputeEval 2025.1 和 2025.2 中,先进大语言模型的准确率可达 1%。新版本引入了 232 项全新的 CUDA 编程挑战,为人工智能辅助编程提供了更具挑战性的评估基准。

我们注意到,随着迁移到 ComputeEval 2025.2,所有模型的得分均有所下降。这并不意味着模型能力在减弱,而是反映出该基准测试的难度有所提升。随着每个版本的发布,我们不断提高对人工智能的要求,推动其更深入地理解加速计算中的各种细微之处。

下一步计划以及参与方式

我们将持续扩展数据集与评估框架的功能,目前已着手将 ComputeEval 的覆盖范围延伸至更多 CUDA-X 库,包括 cuBLAS、CUTLASS、cuDNN 和 RAPIDS 等。我们诚邀更广泛的 HPC 与 AI 社区参与贡献、开展合作。欢迎在 GitHub 上查阅代码,并通过 Hugging Face 获取相关数据集。

标签