cuQuantum

加速量子计算研究

量子计算具有巨大的计算能力提升潜力。科学家、开发者和研究人员能否在经典计算机上模拟量子电路至关重要。

NVIDIA cuQuantum 是一个优化库和工具的 SDK,用于加速量子计算工作流程。借助 NVIDIA Tensor Core GPU,开发者可以使用 cuQuantum 将基于状态向量和张量网络方法的量子电路模拟加速数量级。


NVIDIA cuQuantum SDK

想要在云端运行?

在 AWS 上运行   |   在 Azure 上运行   |   在 GCP 上运行   |   在 OCI 上运行


快速链接

cuQuantum 设备

基于 cuQuantum 的完整模拟堆栈,随准备部署的容器一起提供。

文档

cuQuantum 和 cuQuantum Appliance 的文档。

GitHub

cuQuantum 公共资源库,包括 cuQuantum Python 绑定和示例。

最新笔记

cuQuantum 版本说明,包括最新的精彩功能

NVIDIA cuQuantum 设备

cuQuantum 设备帮助开发者快速入门,通过优化的容器提供模拟软件,以便在最新的 NVIDIA DGX™ 系统HGX™ 系统.

该堆栈包括 Google 的 Cirq 框架和 qsim 模拟器,以及 NVIDIA cuQuantum。

该设备软件在量子计算领域的关键问题上实现了出色的性能,包括 Shor 算法、随机量子电路和量子傅里叶变换。最新的容器软件更新为我们的容器产品提供了 4.4 倍的性能提升,与之前报道的数据相比,Hopper GPU 提供了约 2 倍的速度提升。尽管 CPU 硬件和软件方面的改进,但用户仍能看到 CPU 实现的速度提升。

cuQuantum 设备现已在 NVIDIA ® NGC™ 目录 以及每个主要云市场上的机器镜像。

多 GPU 加速

与双英特尔至强铂金 8480C CPU 上的 CPU 实现相比,在 NVIDIA H100 80GB Tensor Core GPU 上,cuQuantum Appliance 可将热门量子算法 (如量子傅里叶变换、Shor 算法和量子优势电路) 的模拟速度加快 90-369 倍。

多节点加速

Line graph showing weak scaling comparison of multi-node simulators

性能基准测试采用 Quantum Volume (深度为 10 和 30)、QAOA 和小型量子相位估计,在 NVIDIA H100 80GB GPU 上运行。与 A100 相比,使用 H100 GPU 的 cuQuantum 的平均速度约为 2 倍。

我们最新的多节点更新增加了对 IBM 的 Qiskit Aer 的支持,使用户能够在不更改代码的情况下扩展其 Qiskit 代码至大型 NVIDIA 机器。

此新功能使得 NVIDIA Quantum 平台的用户能够在超级计算机规模下实现出色的量子电路模拟性能。在量子相位估计、QAOA、量子体积等关键问题上,最新的 cuQuantum 设备的性能比之前的实现快了两个数量级,并且能够从单个 GPU 无缝扩展至超级计算机。

cuQuantum 设备用户仅受 GPU 数量的限制。

cuQuantum 设备现已在 NVIDIA ® NGC™ 目录 以及每个主要云市场上的机器镜像。


特性和优势

cuQuantum SDK offers two flexible accelerated quantum circuit simulation methods

灵活

从不受算法限制的加速量子电路模拟方法中选择适用于您的工作的最佳方法。

状态向量法特征包括优化的内存管理和数学核函数、效率指数位交换、门应用核函数,以及用于量子集的概率数组计算。

Tensor 网络方法特征包括加速张量和张量网络收缩、订单优化、近似收缩和多 GPU 收缩。

cuQuantum SDK offers scalable options with multi-node, multi-GPU clusters

可扩展

利用本地或云端的最新 GPU,充分利用多节点、多 GPU 集群的强大功能。

低级 C++API为单个 GPU 和单节点多 GPU 集群提供更高的控制和灵活性。

NVIDIA Omniverse 平台高级 Python API支持 drop-in 多节点执行。

cuQuantum SDK can simulate bigger problems faster and get more work done sooner.

快速

更快地模拟更大的问题,更快地完成更多工作。

使用 NVIDIA H100 Tensor Core GPU 代替 CPU 实现,可显著加快处理关键量子问题的速度,包括随机量子电路、Shor 算法以及变分量子矩阵求解器.

cuQuantum 利用 NVIDIA Selene 超级计算机全路径仿真游戏玩家的游戏体验Google Sycamore 处理器在 10 分钟内完成。


框架集成

cuQuantum 已与领先的量子电路仿真框架集成。

下载 cuQuantum,使用您选择的框架显著加速性能,且无需更改代码。

cuQuantum is integrated with Amazon Web Services (AWS)
cuQuantum is integrated with blueqat
cuQuantum is integrated with Cirq
cuQuantum is integrated with ExaTN
cuQuantum is integrated with Orquestra
cuQuantum is integrated with PennyLane
cuQuantum is integrated with Qibo
cuQuantum is integrated with Qiskit
cuQuantum is integrated with QuEST
cuQuantum is integrated with TKET
cuQuantum is integrated with TorchQuantum
cuQuantum is integrated with XACC Quantum Framework

性能

状态向量法

量子机器学习

CPU 与单个 GPU (1 线程和 32 线程比较)

Line graph showing CPU vs Single GPU (1 thread and 32 thread comparisons)

利用逆向传播评估强相互作用层层次电路的雅各比系数。在 NVIDIA DGX A100 上运行 lightning.gpu,与在 Epyc 7742 CPU 上运行 lightning.qubit 进行比较。结果平均在三次运行中得出。

状态向量模拟通过每个门操作追踪系统的整个状态,是模拟深度或高度交织的量子电路以及模拟噪声量子位的出色工具。

一个 NVIDIA DGX™ A100 系统配备 8 个 NVIDIA A100 80GB Tensor Core GPU,可模拟多达 36 个量子位,在双插槽 CPU 服务器上实现领先的状态向量模拟的数量级加速。

cuStateVec 已被领先的公开可用模拟器采用,包括集成到 AWS Braket、Google Cirq 的 qsim 模拟器、IBM Qiskit Aer 模拟器和 Xanadu 的 PennyLane Lightning 模拟器。使用 AWS Braket 上的闪电。gpu 的用户可以将速度提升 900 倍,并将成本降低 3.5 倍。很快,它将支持更广泛的框架和模拟器。阅读 NVIDIA 技术博客 了解更多详情。

张量网络方法

Tensor 网络方法快速受到欢迎,用于模拟近期量子算法的数百个或数千个量子位。Tensor 网络的规模取决于量子门的数量,而不是量子位的数量。这使得在大型超级计算机上使用较少的门数量来模拟庞大的量子位数量成为可能。

Tensor 收缩可显著降低在 Tensor 网络模拟器上运行电路的内存需求。研究社区正在大力投资改进路径规划方法,以便在运行模拟之前快速找到近乎优化的 Tensor 收缩。

cuTensorNet 为张量网络模拟的路径规划和收缩阶段提供了出色的性能。请参阅 NVIDIA 技术博客 了解更多详情。

借助 cuQuantum, NVIDIA 研究人员能够使用 1,688 个量子比特在 NVIDIA DGX SuperPOD™ 系统上编码 3,375 个顶点,这比之前最大的模拟增加了 16 倍,也比目前在量子硬件上运行的最大问题增加了数量级。

路径规划和收缩性能

出色的路径规划性能

Bar chart showing state-of-the-art performance for Pathfinding

cuTensorNet 路径规划的性能与 Cotengra 相比,每个样本的性能差异在几秒钟之内。两者均使用单核 EPYC 7742 CPU。

Sycamore 是指 Arute 等人在(Quantum Supremacy using a Programmable Superconducting Processor) 中提出的 53 个 10 级、12 级、14 级和 20 级深度的随机量子电路。
www.nature.com/articles/s41586-019-1666-5

Cotengra:Gray 和 Kourtis,超优化 Tensor 网络收缩,2021 年。
quantum-journal.org/papers/q-2021-03-15-410

出色的收缩时间性能

cuTensorNet 的收缩性能与 Torch、cuPy 和 numPy 相比。所有运行均利用相同的最佳收缩路径。cuTensorNet、cuPy、Torch 均在 1 个 NVIDIA A100 GPU 上运行。numPy 在单插槽 EPYC 7742 上运行。cuPy 和 numPy 无法执行 Sycamore 深度 12 和 14,因为它们对最大张量秩有限制,因此这些作业无法执行。

BQSKit:具有 48 和 64 个量子位的电路:Berkeley Quantum Synthesis Toolkithttps://github.com/BQSKit/bqskit
QAOA:36 个量子位和 4 个参数
PEPS:具有 3x3 维度和 30 个运算符深度的张量网络。

近似张量网络方法

Line graph showing Matrix Product States (MPS) gate split performance measurement

MPS 门分裂性能的执行时间与键的尺寸成正比。我们在 NVIDIA A100 80GB GPU 上执行此操作,并将其与在 EPYC 7742 数据中心 CPU 上运行的 NumPy 进行比较。

由于量子问题的大小和复杂程度差异很大,因此研究人员开发了高度自定义的近似张量网络算法,以应对各种可能性。为了轻松集成这些框架和库,cuTensorNet 提供了一组 API,以涵盖以下常见用例:Tensor QR、Tensor SVD 和 Gate Split。

这些基元允许用户加速和扩展不同类型的量子电路模拟器。通过利用这些方法模拟量子计算机的常见方法是使用矩阵乘法状态 (MPS,也称为张量训练)。用户可以利用这些新的 cuTensorNet API 加速基于 MPS 的量子电路模拟器。

Gate Split 和 Tensor SVD API 实现了近一个数量级的速度提升,相较于先进的 CPU 实现,Tensor QR 的效率提升了近两个数量级。

资源

开始使用 NVIDIA cuQuantum。


立即下载