NVIDIA cuEST

NVIDIA CUDA® 电子结构理论库（cuEST，目前为 beta 版）是一个基于 CUDA-X™ 的库，用于在 NVIDIA GPU 上加速从头算量子化学应用。cuEST 面向工业级量子化学工作负载，提供丰富的功能集和灵活的组件级 API，用于加速分子量子化学中计算最密集的基础构件。

立即下载文档
 论坛

cuEST 的工作原理

NVIDIA cuEST 将量子化学加速能力带到 GPU 上，使分子与材料体系的电子结构性质预测更加快速且精度更高。借助先进的 GPU 算法，cuEST 相比传统 CPU 和已有 GPU 方案实现了显著加速，突破了长期以来限制工程师和计算化学家在工业流程中使用高精度量子化学方法的性能瓶颈。开发者可以将 cuEST 集成进自身的量子化学代码中，例如嵌入到密度泛函理论 (DFT) 自洽场 (SCF) 方法中，以获得端到端的加速能力。

cuEST 的主要特性

突破性加速

利用高度优化的算法和各种技术，cuEST 可提供比基于 CPU 的传统量子化学方法快 50 倍的突破性加速。这可实现工业规模的高精度、基于 GPU 的量子化学代码。

模块化和组件化 API

凭借组件级设计和模块化结构，cuEST API 完全可组合，使独立软件供应商 (ISV) 、开源项目和社区能够灵活集成 NVIDIA GPU 加速，同时保留其现有的端到端功能和工作流程。

DFT 的功能

cuEST 为现代基于高斯的 DFT 提供构建块，包括构建重叠、动力学、势、库伦、交换、交换相关势矩阵及其导数，并支持广泛的广义梯度近似 (GGA) 、元+ GGA 和混合泛函。

性能

相对于先进的 Tensor 压缩 CPU 代码的端到端 cuEST 加速

请注意，上述端到端计时是使用 cuEST 库调用进行测量的，由作为示例提供的轻量级示例 SCF 程序驱动。

相对于先进的张量压缩 CPU 代码而言，DF-K 加速

cuEST DF-K 在采用模拟和混合精度技术的 100 系列平台上的性能

NVIDIA RTX PRO Blackwell 服务器版本上的 cuEST DF-K 性能* 采用模拟和混合精度技术

PSI4 在英特尔至强 Platinum 8570 的 56 个核心上运行，这是 PSI4 解决方案时间的最佳 CPU 配置。使用 PSI4 v1.9.1，PSI4 v1.10.0 和 v1.11 tip 的测试均显示相同性能。
cuEST 使用作为示例提供的轻量级示例 SCF 程序运行。
cuEST 在指定类型 ( H200、B200、A100、RTX Pro 6000 Server Edition) 的 1 个 GPU 上运行。
为了保持一致，这两种代码都运行 20 次 RHF 迭代，并且两种代码都使用相同的值 (例如 pq 值) 。
分子是一种系统的球形硅苯晶体。
在有效 TFLOPS 下，DF-K 性能被计算为基于 DGEMM 的密集矩形 DF-K 的 TFLOPS 除以 K 墙时 (以秒为单位) 。
模拟结果使用 cuEST v0.1 与动态尾崎值方案，该方案在 SCF 程序结束时产生总能量中的 FP64 能量聚合。
PSI4 加速使用模拟的 cuEST 结果。