cuQuantum
加速量子计算研究。
NVIDIA cuQuantum 是一个包含优化库和工具的 SDK,可将电路和设备级别的量子计算模拟加速几个数量级。
特性和优势
灵活
从与算法无关的加速量子电路模拟方法中选择适合您工作的最佳方法。
状态向量方法功能包括优化的内存管理和门应用程序内核。
张量网络方法的功能包括加速张量网络收缩、顺序优化和近似收缩。
密度矩阵方法的功能包括对状态的任意操作。
可扩展
在本地或云端使用最新的 GPU,充分利用多节点、多 GPU 集群的强大功能。
底层 C++ API 为单个 GPU 和单节点多 GPU 集群提供更高的控制力和灵活性。
高级 Python API 支持插入式多节点执行。
速度快
更快地模拟更大的问题,更快地完成更多工作。
与 CPU 相比,使用 NVIDIA H200 Tensor Core GPU 可在关键量子问题 (包括随机量子电路、Shor 算法和变分量子特征解) 上实现数量级的加速。
利用 NVIDIA Eos 超级计算机,cuQuantum 在不到 5 分钟的时间内从 Google Sycamore 处理器的全电路模拟中生成样本。
cuQuantum 框架集成
cuQuantum 与领先的量子模拟框架集成。下载 cuQuantum,使用您选择的框架大幅提升性能,且无需更改代码。
组件
用于在 NVIDIA 硬件上加速量子模拟的工具。
大规模动态
量子计算机和设备的设计一直充满挑战。这些问题的模拟速度可能很慢,而且扩展能力有限。cuQuantum 现在包含时间动力学功能,使用户能够将模拟哈密顿动力学加速到前所未有的规模。用户现在可以更好地了解如何在量子现象比以前更快地发生的情况下优化设备设计。
通过在多 GPU 多节点系统中分配状态和运算符,cuQuantum 允许进行比以往更大的相位空间探索,并且仅受您可以访问的 GPU 数量的限制。
借助 NVIDIA 的 Eos 超级计算机,Google 能够使用 1024 个 GPU 将其处理器上的模拟动力学模拟扩展到 40 个量子位。这使得像 Google 这样的 QPU 组装商能够比以往更有效地了解其设备上的远程影响、执行验证和设计,从而开创 QPU 设计的新时代。
更快的 GPU 实现
核心运算符动作 API 使自定义求解器的开发者能够灵活地将任意时间相关运算符应用于量子状态,比以前更高效。我们的高级算法允许我们使用相同的硬件内存进一步扩展。
这使用户能够更快地设计更好的量子系统。借助多 GPU 显存,开发者可以在以前仅模拟一个量子系统所需的时间内,模拟 473 个不同的量子系统,从而大幅加速其 QPU 设计周期。强扩展表明,这些 API 可以加快一系列哈密顿和运算符术语,从而进一步加速硬件开发周期。
cuDensityMat 可加速和扩展模拟,超越了以前使用下一个最佳替代方案所能实现的速度。现在,使用两个谐振器模拟量子的速度比 GPU 替代产品快 56 倍,比 CPU 替代产品快 116 倍。现在,13 量子位 1D 旋转链的速度比 GPU 替代产品快 49 倍,比 CPU 快 78 倍。
多 GPU 加速
状态向量模拟通过每个门运算随时间跟踪系统的整个状态。它是用于模拟深度或高度纠缠量子电路以及模拟噪声量子位的出色工具。
与之前报告的数字相比,我们产品的近期软件更新使速度提高了 4.4 倍。结合 Hopper GPU 提供的约 2 倍加速,用户可以看到,尽管 CPU 硬件和软件得到了改进,但其速度甚至比 CPU 实现的速度还要快。
在 NVIDIA H100 80GB Tensor Core GPU 上,cuStateVec 可将量子里叶变换、Shor 算法和量子霸权电路等热门量子算法的模拟速度提升至双英特尔至强 Platinum 8480C CPU 上 CPU 实现的 90 - 369 倍。
多节点加速
这种多节点功能使 NVIDIA Quantum 平台的用户能够在超级计算机规模下实现高性能的量子电路模拟。在量子相位估计、量子近似优化算法 (QAOA) 、量子体积等关键问题上,最新的 cuQuantum Appliance 比以前的实现快两个数量级以上,并且可以从单个 GPU 无缝扩展到超级计算机。
在 NVIDIA H100 80GB Tensor Core GPU 上,cuStateVec 可将量子里叶变换、Shor 算法和量子霸权电路等热门量子算法的模拟速度提升至双英特尔至强 Platinum 8480C CPU 上 CPU 实现的 90 - 369 倍。
寻路性能
张量网络方法正迅速普及,可为近期量子算法模拟数百或数千个量子位。张量网络随量子门的数量 (而非量子位的数量) 而扩展。这使得在大型超级计算机上使用较小的门数模拟非常大的量子位计数成为可能。
张量收缩可显著降低在张量网络模拟器上运行电路所需的内存。研究社区正在大力投资改进寻路方法,以便在运行模拟之前快速找到接近最优的张量收缩。
cuTensorNet 为张量网络仿真的寻路和收缩阶段提供出色性能。
图 5:与 Cotengra 相比,cuTensorNet 寻路性能 (每个样本的秒数) 。两次运行均采用单核 Xeon Platinum 8480*。
Sycamore 是指 Arute 等公司使用可编程超导处理器实现深度为 10 和 20 的 53 量子位随机量子电路。www.nature.com/articles/s41586-019-1666-5
Cotengra:Gray& Kourtis,超优化张量网络收缩,2021 年。quantum-journal.org/papers/q-2021-03-15-410
缩短收缩时间,提高效率
比较 cuTensorNet 与 Torch、cuPy 和 NumPy 的收缩性能。所有运行均采用相同的最佳收缩路径。cuTensorNet、cuPy 和 Torch 均在一个 NVIDIA H200 GPU 上运行。NumPy 在单插槽 Xeon 8480+ 上运行。
借助 cuQuantum,NVIDIA 研究人员能够模拟变分量子算法,使用 1688 量子比特在 NVIDIA DGX SuperPOD™ 系统上对 3375 个顶点进行编码,以解决 MaxCut 优化问题,比之前的大型模拟提高了 16 倍,比迄今为止在量子硬件上运行的最大问题大多个数量级。
Sycamore 电路:53 量子位深度 10
量子里叶变换:34 量子比特
逆量子里叶变换:36 量子比特
量子体积:26 和 30 量子比特,深度 30
QAOA:36 个量子位,包含 1 个和 4 个参数
近似张量网络方法
由于关注的量子问题的大小和复杂性各不相同,研究人员开发了高度定制的近似张量网络算法,以解决各种可能性。为实现与这些框架和库的轻松集成,cuTensorNet 提供了一组 API 来涵盖以下常见用例:张量二维码、张量 SVD 和门拆分。这些基元使用户能够加速和扩展不同类型的量子电路模拟器。模拟量子计算机的一种常用方法是利用这些方法,即矩阵积状态 ( MPS,也称为张量训练) 。用户可以利用这些新的 cuTensorNet API 来加速基于 MPS 的量子电路模拟器。与先进的 CPU 实现相比,门拆分和张量 SVD API 可实现近一个数量级的加速。Tensor QR 效率最高,在相同的 Xeon 8480* CPU 上可实现近两个数量级的加速。
MPS 门拆分性能以执行时间作为键维度的函数来衡量。我们在 NVIDIA H200 140GB GPU 上执行此操作,并将其与在 Xeon 8480™ 数据中心 CPU 上运行的 NumPy 进行比较。
更多资源
立即开始使用 cuQuantum