cuQuantum

加速量子计算研究。

NVIDIA cuQuantum 是一个包含优化库和工具的 SDK，可将电路和设备级别的量子计算模拟加速几个数量级。

立即下载使用 Conda 进行安装

快速链接

NGC

CUDA-Q

容器中包含由 cuQuantum 驱动的模拟器的量子框架。

Documentation

文档

有关 cuQuantum 和 cuQuantum Appliance 的文档

OSS (Github)

GitHub

cuQuantum 公共资源库，包括 cuQuantum Python 绑定和示例

Documentation

特性和优势

灵活

从与算法无关的加速量子电路模拟方法中选择适合您工作的最佳方法。

状态向量方法功能包括优化的内存管理和门应用程序内核。
张量网络方法的功能包括加速张量网络收缩、顺序优化和近似收缩。
密度矩阵方法的功能包括对状态的任意操作。

可扩展

在本地或云端使用最新的 GPU，充分利用多节点、多 GPU 集群的强大功能。

底层 C++ API 为单个 GPU 和单节点多 GPU 集群提供更高的控制力和灵活性。
高级 Python API 支持插入式多节点执行。

速度快

更快地模拟更大的问题，更快地完成更多工作。

与 CPU 相比，使用 NVIDIA H200 Tensor Core GPU 可在关键量子问题 (包括随机量子电路、Shor 算法和变分量子特征解) 上实现数量级的加速。
利用 NVIDIA Eos 超级计算机，cuQuantum 在不到 5 分钟的时间内从 Google Sycamore 处理器的全电路模拟中生成样本。

cuQuantum 框架集成

cuQuantum 与领先的量子模拟框架集成。下载 cuQuantum，使用您选择的框架大幅提升性能，且无需更改代码。

组件

用于在 NVIDIA 硬件上加速量子模拟的工具。

cuDensityMat

cuStateVec

cuTensorNet

大规模动态

量子计算机和设备的设计一直充满挑战。这些问题的模拟速度可能很慢，而且扩展能力有限。cuQuantum 现在包含时间动力学功能，使用户能够将模拟哈密顿动力学加速到前所未有的规模。用户现在可以更好地了解如何在量子现象比以前更快地发生的情况下优化设备设计。

通过在多 GPU 多节点系统中分配状态和运算符，cuQuantum 允许进行比以往更大的相位空间探索，并且仅受您可以访问的 GPU 数量的限制。

了解详情

更快的 GPU 实现

核心运算符动作 API 使自定义求解器的开发者能够灵活地将任意时间相关运算符应用于量子状态，比以前更高效。我们的高级算法允许我们使用相同的硬件内存进一步扩展。

这使用户能够更快地设计更好的量子系统。借助多 GPU 显存，开发者可以在以前仅模拟一个量子系统所需的时间内，模拟 473 个不同的量子系统，从而大幅加速其 QPU 设计周期。强扩展表明，这些 API 可以加快一系列哈密顿和运算符术语，从而进一步加速硬件开发周期。

多 GPU 加速

状态向量模拟通过每个门运算随时间跟踪系统的整个状态。它是用于模拟深度或高度纠缠量子电路以及模拟噪声量子位的出色工具。

与之前报告的数字相比，我们产品的近期软件更新使速度提高了 4.4 倍。结合 Hopper GPU 提供的约 2 倍加速，用户可以看到，尽管 CPU 硬件和软件得到了改进，但其速度甚至比 CPU 实现的速度还要快。

A graph showing how cuStateVec speeds up simulations of popular quantum algorithms

多节点加速

这种多节点功能使 NVIDIA Quantum 平台的用户能够在超级计算机规模下实现高性能的量子电路模拟。在量子相位估计、量子近似优化算法 (QAOA) 、量子体积等关键问题上，最新的 cuQuantum Appliance 比以前的实现快两个数量级以上，并且可以从单个 GPU 无缝扩展到超级计算机。

了解详情

A 36 qubit multi-node quantum dynamics simulation

寻路性能

张量网络方法正迅速普及，可为近期量子算法模拟数百或数千个量子位。张量网络随量子门的数量 (而非量子位的数量) 而扩展。这使得在大型超级计算机上使用较小的门数模拟非常大的量子位计数成为可能。

张量收缩可显著降低在张量网络模拟器上运行电路所需的内存。研究社区正在大力投资改进寻路方法，以便在运行模拟之前快速找到接近最优的张量收缩。

cuTensorNet 为张量网络仿真的寻路和收缩阶段提供出色性能。

A graph showing time to find an optimized contraction path using single core

缩短收缩时间，提高效率

比较 cuTensorNet 与 Torch、cuPy 和 NumPy 的收缩性能。所有运行均采用相同的最佳收缩路径。cuTensorNet、cuPy 和 Torch 均在一个 NVIDIA H200 GPU 上运行。NumPy 在单插槽 Xeon 8480+ 上运行。

借助 cuQuantum，NVIDIA 研究人员能够模拟变分量子算法，使用 1688 量子比特在 NVIDIA DGX SuperPOD™ 系统上对 3375 个顶点进行编码，以解决 MaxCut 优化问题，比之前的大型模拟提高了 16 倍，比迄今为止在量子硬件上运行的最大问题大多个数量级。

了解详情

Three bar charts showing state-of-the-art performance for contraction time

近似张量网络方法

由于关注的量子问题的大小和复杂性各不相同，研究人员开发了高度定制的近似张量网络算法，以解决各种可能性。为实现与这些框架和库的轻松集成，cuTensorNet 提供了一组 API 来涵盖以下常见用例：张量二维码、张量 SVD 和门拆分。这些基元使用户能够加速和扩展不同类型的量子电路模拟器。模拟量子计算机的一种常用方法是利用这些方法，即矩阵积状态 ( MPS，也称为张量训练) 。用户可以利用这些新的 cuTensorNet API 来加速基于 MPS 的量子电路模拟器。与先进的 CPU 实现相比，门拆分和张量 SVD API 可实现近一个数量级的加速。Tensor QR 效率最高，在相同的 Xeon 8480* CPU 上可实现近两个数量级的加速。

了解详情

A chart showing MPS gate split performance on GPU

cuQuantum

快速链接

CUDA-Q

文档

GitHub

最新笔记

特性和优势

灵活

可扩展

速度快

cuQuantum 框架集成

组件

大规模动态

更快的 GPU 实现

多 GPU 加速

多节点加速

寻路性能

缩短收缩时间，提高效率

近似张量网络方法

更多资源

社区

注册开发者时事新闻

面向初创公司的初创加速计划

cuQuantum

快速链接

CUDA-Q

文档

GitHub

最新笔记

特性和优势

灵活

可扩展

速度快

cuQuantum 框架集成

组件

大规模动态

更快的 GPU 实现

多 GPU 加速

多节点加速

寻路性能

缩短收缩时间，提高效率

近似张量网络方法

资源

观看 GTC 会议

阅读 NVIDIA 博客文章

更多资源

社区

注册开发者时事新闻

面向初创公司的初创加速计划