使用 ComputeEval 2025.2 对 AI 生成的 CUDA 代码进行 LLM 基准测试

AI 编码助手能否编写高效的 CUDA 代码？为了更准确地衡量并提升其能力，我们构建了 ComputeEval，一个可靠且开源的基准测试工具，用于评估 AI 模型和智能体在 CUDA 编程任务中的表现。

几个月前，我们发布了 ComputeEval 的首个版本，今天，我们推出其首次重大扩展，新增一百多个 CUDA 挑战。

随着此版本的发布，该数据集已扩展至共包含 232 个 CUDA 及 CUDA 计算核心库（CCCL）相关问题。我们有针对性地引入了更多复杂挑战，要求大语言模型运用现代 CUDA 技术，例如 Tensor Core、高级共享内存模式以及线程束级基元，从而提升了测试标准。新增问题重点考察对 CUDA 图、流和事件等机制的协调能力，并置于动态模拟等真实应用场景之中。

CUDA 编程方面的 LLM 性能

我们的团队在 ComputeEval 上对多个领先的大语言模型进行了评估，旨在建立基准性能指标，并深入理解 AI 辅助 CUDA 编程的当前发展状况（见表 1）。

Model	ComputeEval 2025.2 232 新问题集上的一次通过率	ComputeEval 2025.1 128 问题集上的一次通过率
GPT-5（中）	0.5819	0.61
Cloude Sonnet 4.0	0.5517	0.64
gpt-oss-20B（高）	0.5474	N/A
gpt-oss-120b（高）	0.5302	N/A
Claude Opus 4.0	0.5216	N/A
DeepSeek-R1	0.4397	0.55
gpt-oss-120b（中）	0.4224	N/A
gpt-oss-20b（中）	0.4224	N/A
gpt-oss-120b（低）	0.4052	N/A
DeepSeek-V3.1	0.3750	0.44
Llama 4 Maverick 17B 128E	0.3448	0.47
Llama 3.1 405B	0.3405	0.4

表 1 显示，在 ComputeEval 2025.1 和 2025.2 中，先进大语言模型的准确率可达 1%。新版本引入了 232 项全新的 CUDA 编程挑战，为人工智能辅助编程提供了更具挑战性的评估基准。

我们注意到，随着迁移到 ComputeEval 2025.2，所有模型的得分均有所下降。这并不意味着模型能力在减弱，而是反映出该基准测试的难度有所提升。随着每个版本的发布，我们不断提高对人工智能的要求，推动其更深入地理解加速计算中的各种细微之处。

下一步计划以及参与方式

我们将持续扩展数据集与评估框架的功能，目前已着手将 ComputeEval 的覆盖范围延伸至更多 CUDA-X 库，包括 cuBLAS、CUTLASS、cuDNN 和 RAPIDS 等。我们诚邀更广泛的 HPC 与 AI 社区参与贡献、开展合作。欢迎在 GitHub 上查阅代码，并通过 Hugging Face 获取相关数据集。

使用 ComputeEval 2025.2 对 AI 生成的 CUDA 代码进行 LLM 基准测试

CUDA 编程方面的 LLM 性能

下一步计划以及参与方式

标签

关于作者

使用 ComputeEval 2025.2 对 AI 生成的 CUDA 代码进行 LLM 基准测试

CUDA 编程方面的 LLM 性能

下一步计划以及参与方式

标签

关于作者

相关文章

NVIDIA Blackwell 架构席卷 MLPerf Training v5.1 基准测试

在 Kubernetes 上启用 NVIDIA GB200 NVL72 及以上型号的多节点 NVLink

如何将数学问题的推理速度提升 4 倍

生成式 AI 超分辨率利用可扩展的低计算模型加速天气预报

使用 GPU 加速的 Polars DataFrame 训练 XGBoost 模型