cuQuantum

加速量子计算研究

量子计算有望实现计算能力的巨大飞跃,而科学家、开发者和研究人员能够在传统计算机上对量子电路进行模拟是实现这一目标的关键。

学术界、实验室和工业界的研究社区正在使用模拟器来帮助设计和验证在量子计算机上运行的算法。这些模拟器可捕捉叠加和纠缠属性,并基于量子电路模拟框架构建。

作为一个包含经过优化的库和工具的 SDK,NVIDIA cuQuantum 可用于加速量子计算工作流。借助 NVIDIA Tensor Core GPU,开发者可以使用 cuQuantum 将基于状态向量和张量网络方法的量子电路模拟加速一个数量级。

cuQuantum 图标

快速链接

cuQuantum DGX Appliance

一个基于 cuQuantum 的全模拟堆栈,位于可部署的容器中。

文档

关于 cuQuantum 和 DGX cuQuantum Appliance 的文档。

GitHub

cuQuantum 公共仓库,包括 cuQuantum Python 绑定和示例。

NVIDIA cuQuantum DGX Appliance

为帮助开发者入门,已在容器中提供模拟软件,该软件经过优化,可基于 NVIDIA DGX 系统(一种 cuQuantum DGX Appliance)中的新型 NVIDIA GPU 运行。

该软件包括 Google 的 Cirq 框架和 qsim 模拟器,以及 NVIDIA cuQuantum。

该设备软件已在量子计算领域的关键问题(如 Shor 算法、随机量子电路和可变量子本征求解)中展示出了杰出性能。

该软件现已在 NVIDIA® NGC™ 目录中提供。

Sycamore 霸权电路

DGX cuQuantum Appliance
基于双核 AMD CPU 的状态向量模拟器

与使用 CPU 相比,量子设备将了量子霸权电路的模拟速度提高了 70 倍。灰色:双路 AMD EPYC 7742 CPU。绿色:配有 DGX A100 640GB 的 NVIDIA cuQuantum DGX Appliance。36 量子比特,深度 m=14。


特性和优势

灵活

从与算法无关的加速量子电路模拟方法中选择适合您工作的上佳方法。

状态向量方法特性包括优化的内存管理和数学核函数、索引位效率交换、门应用核函数以及量子比特集的概率数组计算。

张量网络方法特性包括加速的张量和张量网络收缩、阶数优化、近似收缩和多 GPU 收缩。

可扩展

通过在本地或云端使用新一代 GPU 利用多节点、多 GPU 集群的强大功能。

低级别 C++ API 可提高单 GPU 以及单节点多 GPU 的可控性和灵活性。

高级 Python API 支持内置多节点执行。

运行速度快

更快地对重大问题进行模拟,并更快地处理更多工作。

与使用 CPU 相比,使用 NVIDIA A100 Tensor Core GPU 可在处理重要量子问题(包括量子电路、Shor 算法变分量子本征求解器)时实现多个数量级的加速。

cuQuantum 利用 NVIDIA Selene 超级计算机,在不到 10 分钟的时间内通过 Google Sycamore 处理器全电路模拟生成了一个样本。


框架集成

cuQuantum 与出色的量子电路模拟框架相集成。下载 cuQuantum,通过您选择的框架获得显著加速的性能,并且无需更改代码。



性能

状态向量方法

量子傅里叶变换

CPU 与单个 GPU

量子傅里叶变换将 p 转换为 32 量子比特,复数 64

状态向量:量子傅里叶变换将 p 转换为 32 量子比特,复数 64 | CPU:基于双路 AMD EPYC 7742 的 qsim | GPU:基于 DGX A100 的 qsim 和 cuStateVec

状态向量模拟通过每个门运算及时追踪系统的整个状态。此工具性能出色,用于模拟深度和/或高度纠缠的量子电路,以及模拟噪声量子比特。

NVIDIA DGX™ A100 配有 8 个 NVIDIA A100 80GB Tensor Core GPU,最高可模拟 36 量子比特,在前沿的状态向量模拟中,可实现比双插槽 CPU 服务器高多个数量级的加速。

cuStateVec 已由公开发布的出色模拟器采用。cuStateVec 已经集成到 Google 的 qsim 模拟器、Cirq 框架的组成部分、IBM Qiskit 框架中的 Aer 模拟器以及 Xanadu 的 PennyLane 模拟器中。用户现在可以在使用 Cirq、Qiskit 或 PennyLane 的任何位置下载 cuQuantum 并开始使用。如需了解更多详情,请访问我们的 cuStateVec 博客

张量网络方法

张量网络方法正在迅速普及,能够模拟近期量子算法的成百上千个量子比特。张量网络随量子门数量(而非量子比特数量)进行扩展。如此一来,便可在大型超级计算机上使用较小的门数模拟超大的量子比特数。

张量收缩可大大缩减在张量网络模拟器上运行电路所需的内存大小。研究社区正在大力投资以改进寻路,即在运行模拟之前快速找到近乎最优的张量收缩的方法。

cuTensorNet 为张量网络模拟的寻路和收缩阶段都提供了出色的性能。如需了解更多详情,请查看我们的 cuTensorNet 博客

借助 cuQuantum,NVIDIA 研究人员成功模拟了变分量子算法,使用 1688 个量子比特在 NVIDIA DGX SuperPOD™ 上对 3375 个顶点进行编码,从而解决 MaxCut 优化问题。性能比之前的大型模拟提高了 16 倍,规模比量子硬件上运行的大型问题大了多个数量级。

路径规划性能 – cuTensorNet

提供超卓性能,实现优质的路径质量和快速的解决方案得出速度


M10、12、14、20 是指 Arute 等人在“Quantum Supremacy using a Programmable Superconducting Processor”(使用可编程超导处理器的量子优势)中 提出的深度为 10、12、14、20 的随机量子电路。www.nature.com/articles/s41586-019-1666-5 黑色和灰色表示 opt-einsum:pypi.org/project/opt-einsum 黄色表示 Cotengra:Gray 和 Kourtis,Hyper-optimized Tensor Network Contraction(已超优化的张量网络收缩),2021。quantum-journal.org/papers/q-2021-03-15-410


立即下载 cuQuantum。

立即下载