数据中心/云端

NVIDIA NVQLink 架构加速计算与量子处理器融合

量子计算正步入一个加速计算与量子处理器深度融合推动技术进步的新阶段。控制和测量量子处理单元(QPU)的硬件面临严峻的计算挑战,包括实时校准和量子纠错(QEC)解码等任务。实现具有实用价值的量子应用需要大规模的量子纠错和持续校准,而这些需求唯有通过将加速计算领域的先进技术与量子系统紧密集成才能有效应对。

NVIDIA NVLink 将加速计算引入量子计算架构,使当前的 GPU 超级芯片能够支持 QPU 本身的在线工作负载。

NVQLink 是一种开放平台架构,旨在将传统超级计算主机与量子系统控制器(QSC)紧密集成。该架构可兼容行业内广泛使用的各类现有控制系统,包括超导、捕获离子、光子以及基于自旋的控制方案,同时不限制 QPU 与控制器制造商在技术路径上的创新。其目标明确且具有变革意义:让超级计算节点成为量子处理单元(QPU)环境的原生组成部分,从而显著提升量子硬件的计算能力。

NVQLink 架构定义了一种名为逻辑 QPU 的机器模型(如图 1 所示)。该模型是一个完整的系统,集成了物理量子比特、相应的控制与读出电子设备,以及支持量子纠错(QEC)解码和持续校准等在线任务所需的计算资源。这些组件共同构成了逻辑 QPU 的系统架构:实时主机与量子系统控制器通过低延迟、可扩展的实时互连相连,共同接入能够处理容错量子计算机运行时工作负载的网络

该混合系统融合了量子相干控制与先进传统超级计算的技术。一端是实时主机,作为加速计算节点,可通过 NVIDIA CUDA-Q 平台使用 C++ 或 Python 进行编程;另一端则是第三方量子系统控制器(QSC),通过一系列 FPGA 或 RFSoC(称为脉冲处理单元,PPU)实现对量子比特的底层模拟与数字控制。这两个节点通过实时互连相连,这种网络具备低延迟和高带宽特性,使计算能够在量子硬件的操作时域内高效运行。

可在控制器的 CUDA-Q 运行时中集成开源 FPGA 核心(即代表“网络接口”的 NI 小组件),通过以太网上的 RDMA 技术实现高效实时互连,进而支持实时回调机制(即代表“功能”调用的 fn 小组件),实现编译后数据在低于 4 微秒延迟条件下的快速交换。

The NVQLink architecture introduces a machine model of the Logical QPU: a Real-time Host and Quantum System Controller connected by a low-latency, scalable Real-time Interconnect joining them into a network capable of handling the runtime workloads of a Fault Tolerant Quantum Computer. The image shows GPU compute and Pulse Processor (FPGA, RFSoC, or ASIC) control nodes on a network with realtime callback functionality across the network.
The NVQLink architecture introduces a machine model of the Logical QPU: a Real-time Host and Quantum System Controller connected by a low-latency, scalable Real-time Interconnect joining them into a network capable of handling the runtime workloads of a Fault Tolerant Quantum Computer. The image shows GPU compute and Pulse Processor (FPGA, RFSoC, or ASIC) control nodes on a network with realtime callback functionality across the network.
图1:NVQLink架构将GPU加速引入QPU环境

对应用程序开发者而言,逻辑QPU是一种由CUDA和CUDA-Q支持的新型异构计算设备,存在于超级计算环境中。这种架构的优势在于,逻辑QPU所需的所有CPU、GPU和PPU均可通过统一类型的异构编程模型进行编程和管理,为开发者提供了更高的集成性与便利性。

开发者可使用标准的 C++ 或 Python 语法编写单一程序,用于表达量子核函数以及对实时主机的回调操作。CUDA-Q 中新增的内部 cudaq::device_call 功能,使量子核能够直接调用 GPU 或 CPU 上的函数,并在数微秒内获取执行结果。该设计将广为人知的 CUDA 异构编程模型引入量子计算领域,使开发者得以摆脱基于 REST 的多语言控制架构,实现更高效、更紧密的本地化集成。

以下代码展示了一个实时量子纠错存储实验的示例,该实验采用包含 cudaq::device_call 的单一量子内核实现。

__qpu__ void adaptive_qec_kernel(cudaq::qvector<>& data_qubits, 
                                 cudaq::qvector<>& ancilla_qubits,
                                 int cycles) {
  for(int = 0; i < cycles; ++i){
    // Stabilizer circuits here
    ...
    // Execute syndrome extraction measurements
    auto syndrome = mz(ancilla_qubits);

    // Real-time streaming to dedicated GPU  
    cudaq::device_call(/*gpu_id=*/1, 
                     surface_code_enqueue, 
                     syndrome);
    // Repeat 
  }

  // Real-time decode on dedicated GPU  
  auto correction = cudaq::device_call(/*gpu_id=*/1, 
                                       surface_code_decode);
  
  // Apply corrections physically if desired (typically tracked in software)
  if (correction.x_errors.any()) 
    apply_pauli_x_corrections(data_qubits, correction.x_errors);
  if (correction.z_errors.any())
    apply_pauli_z_corrections(data_qubits, correction.z_errors);
}

底层运行时采用静态多态性与基于特质的合成机制,以消除关键路径中的性能开销。各类设备(如 GPU、CPU 或 FPGA)向运行时注册其可调用函数与数据缓冲区,从而实现高效的数据编排并最大限度地降低延迟。

通过这些创新,NVQLink 将量子处理单元(QPU)从依赖缓慢 API 访问的外围设备,转变为超级计算机中具备同等地位的核心组件。它使量子计算与传统计算能够在同一系统内协同运行,满足严格的延迟要求,真正实现混合加速的量子超级计算。

采用标准技术的超快网络

实时互连是推动 NVQLink 性能的关键因素,其基于融合以太网上的远程直接内存访问(RoCE)技术实现。该方法借助通用的以太网基础设施,达成卓越的性能表现。

这一点已通过采用商用组件的 NVQLink 得以验证:RFSoC FPGA 与基于 Arm 的主机相连,该主机搭载 NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition GPU 以及 NVIDIA ConnectX-7 网络接口卡(如图 2 所示)。FPGA 与主机之间通过 NVIDIA Holoscan 传感器桥接器(HSB) 及配套的 NVIDIA Holoscan SDK(HSDK),实现数据交互,将 FPGA 上的数据高效传输至主机软件,同时支持反向传输。

FPGA 利用精确时间协议(PTP)计数器生成 RoCE 数据包的时间戳,GPU 则通过 DOCA GPUNetIO 在持久型 CUDA 内核中进行循环处理。测得的端到端延迟平均为 3.84 微秒,标准差为 0.035 微秒,在 1000 个样本中最大延迟为 3.96 微秒。该延迟水平和抖动表现足以满足当前及未来容错量子纠错(QEC)解码和其他实时控制任务的需求。

Diagram of the end-to-end RoCE networking test. A host system with ConnectX-7 NIC and GPU connects through 100B Eth to the MAC IP of the RFSoC FPGA, which is running the HSB IP.
Diagram of the end-to-end RoCE networking test. A host system with ConnectX-7 NIC and GPU connects through 100B Eth to the MAC IP of the RFSoC FPGA, which is running the HSB IP.
图 2。端到端 RoCE 网络测试

这种简单的网络方案——在 FPGA 端采用开放且轻量级的 RoCE 核心,主机端则使用标准的 NVIDIA 网络硬件——使 NVQLink 能够迅速被超级计算中心广泛采用。对于正在构建 QPU 和 QSC 的厂商而言,该方案具备现实可行性。由于 FPGA 的 IP 免费提供,且无需公开专有固件,厂商可独立部署该接口,在保护自身知识产权的同时,还能接入由 NVIDIA 支持的、经过验证的高性能传输层。

重要的是,这种方法具备良好的可扩展性。现代以太网设备在超级计算中心中已支持400 Gbps链路和256端口的交换机规模。随着RDMA技术在大型AI和超级计算部署的推动下持续进步,通过NVQLink集成的量子系统也将直接受益于这些技术进展。

NVQLink 已获得量子计算生态系统中多家领军企业的采用。QPU 制造商 Quantinuum 宣布,其未来的处理器将基于 NVQLink 进行部署,而最新发布的 Helios QPU 将采用 NVIDIA GH200 Grace Hopper 作为实时主机。GH200 服务器将利用 CUDA-Q QEC 库中的综合症解码器,实现高效的实时量子纠错。

CUDA-Q nv-qldpc-decoder 可充分利用 Helios 的多对多连接特性,支持量子低密度奇偶校验(qLDPC)码的研究。这一技术在降低容错量子计算的资源开销方面具有重要潜力。Helios 是一台能够运行任意 qLDPC 代码的设备,而 NVIDIA 解码器则可对 Helios 上运行的各类 qLDPC 代码实现实时解码。

NVIDIA 团队与 Quantinuum 合作展示了这一功能。他们对一种名为 Bring 的高速 qLDPC 编码进行了解码,该编码将 8 个逻辑量子位编码为 30 个物理量子位。实验中采用的解码算法为 BP+OSD(信念传播结合有序统计解码),解码时间中位数为 67 微秒,能够通过前馈校正实现错误的实时纠正。

我们利用该系统构建了一个包含8个逻辑量子比特的量子存储器。在Helios上执行三轮量子纠错后,8个逻辑量子比特的错误率从纠错前的4.95%±0.67%降低至0.925%±0.38%,性能提升了5.4倍。

这一早期成果展现了 NVQLink 在推动容错量子计算发展方面的潜力。

在设计、构建和部署更具可扩展性的量子系统时,NVIDIA NVQLink 能够加速实验进程,并提供更精准的反馈。无论您是致力于开发基于标准开放接口的量子处理器(QPU)的构建者,研究新一代解码与校准算法的科研人员,还是编写前沿应用的QPU操作者,NVQLink 都能为您奠定加速发展的技术基础。

NVQLink 是一个由量子计算行业合作伙伴共同构建的开放式平台。

准备好开始了吗?

 

标签