数据中心/云端

借助 NVIDIA RTX PRO 4500 Blackwell 更快地运行关键基因组学和蛋白质折叠工作负载

精准医疗依赖于两项基本能力:在基因组层面了解疾病,以及在分子层面确定治疗方法。

NVIDIA 对精准医疗的贡献不仅限于加速计算,还提供了一个全栈平台,将硬件和软件的进步直接转化为医疗健康成果。

人类基因组测序最初需要十多年的时间,而现在只需几个小时即可完成。这一重大转变超越了技术里程碑。它实现了更早的检测、更快的诊断和更有针对性的治疗,从根本上改变了人们理解和治疗疾病的方式。

测序速度的提升已将基因组瓶颈从数据生成转移到数据分析。只有下游分析能够跟上步伐,更快的测序才有价值。临床医生需要更快地做出治疗决策,尤其是在时间敏感型环境中,如肿瘤科或新生儿重症监护室 (NICU) ,因为这些环境中的每一分钟都至关重要。

另外,传统的蛋白质结构表征过程是药物研发的基础,过去需要进行多年的繁重实验工作,但像 AlphaFold 这样基于 AI 的新方法将这一过程缩短到了数分钟或数小时。这一转变显著减少了识别候选治疗药物的时间和费用,并实现了高通量筛选,从而加速了药物研发。

基因组学可帮助您了解疾病,蛋白质结构可帮助您找到治疗方法。它们是同一旅程的两个阶段。

本文将探讨NVIDIA BioNeMo平台的最新进展,包括NVIDIA Parabricks以及最新发布的RTX PRO 4500 Blackwell服务器版本,如何帮助医疗健康与生命科学领域的研究人员和临床医生提升工作效率,实现更快速、更精准的分析,同时大幅降低计算成本。

NVIDIA RTX PRO 4500 Blackwell 上的 NVIDIA Parabricks

NVIDIA Parabricks 是一种加速基因组分析的解决方案,在应对数据分析瓶颈方面发挥着关键作用。通过提供可信赖的开源工具的 GPU 加速版本,Parabricks 将分析时间从几小时缩短至几分钟,使研究人员能够更快获得生物学洞见,临床医生也能更迅速地做出决策。

NVIDIA RTX PRO 4500 Blackwell 服务器版 GPU 是 RTX PRO 数据中心产品系列的最新成员。该平台紧凑节能,基于 NVIDIA Blackwell 架构,可为云、数据中心和边缘部署中的多种工作负载提供强大算力,显著提升 NVIDIA Parabricks 的性能表现。

加速比对和变体识别:Minimap2、fq2bam 和 DeepVariant

通常,比对和变体识别等耗时的任务,在传统的基于 CPU 的方法上可能需要数小时的时间。Minimap2fq2bam 广泛用于比对,而 DeepVariant 则是一款热门的变体识别工具。Minimap2 是一个序列比对工具,用于将 DNA 或 RNA 测序读数与参考基因组进行比对,fq2bam 是 BWA-MEM 的 Parabricks 包装器,包含 GATK 最佳实践。DeepVariant 是 Google 基于深度学习的变异识别工具,用于识别生殖细胞变体 (即遗传性疾病) 。

Parabricks 在 GPU 架构上实现了显著加速,并持续优化以支持进一步提升性能。在序列比对和变异识别应用中,RTX PRO 4500 Blackwell 相比之前的 GPU 版本性能更快。与 NVIDIA L4 Tensor Core GPU 相比,Minimap2 和 DeepVariant 的运行速度约提升 2 倍。对于 fq2bam,RTX PRO 4500 的速度达到 NVIDIA L4 的 2.4 倍。

Parabricks v4.7 基准测试

工具 NVIDIA RTX PRO 4500
2 块 GPU
(分钟)
NVIDIA L4
2 块 GPU
(分钟)
最小地图 2 15.8 30.1
fq2bam (BWA-MEM – 配对端) 13.4 32.5
DeepVariant (短读) 7.5 15.0
表 1. 时间 (分钟) 。NVIDIA Perflab 团队使用 Parabricks v4.7.0 和内部节点收集的数据。仅供参考。速度可能会因数据集、GPU 实例、主机 CPU、内存可用性和其他因素而异。使用 Illumina 数据对 30% 的全基因组进行 DeepVariant 和 fq2bam 测序。使用 Pacbio 数据对 Minimap2 进行 35% 的全基因组测序

PacBio 是一家以长读长测序技术而闻名的基因组测序公司。通过集成 RTX PRO 4500 Blackwell,PacBio 显著加快了碱基识别速度,这是第一个计算步骤,将原始仪器输出转换为可用的序列数据,用于下游分析。

“PacBio 高保真测序需要无可比拟的准确性,以及与生物学同步的速度。RTX PRO 4500 Blackwell 服务器版 GPU 可同时满足这两种需求。”Pacific Biosciences 仪器分析高级总监 Armin T pfer 说。

他说:“我们发现,与 L4 GPU 相比,碱基识别吞吐量提高了 2 倍以上,其功耗和尺寸配置为如何以及在何处进行测序分析开辟了新的可能性。”再加上 Parabricks minimap2 和 DeepVariant 工具的速度和性能提升,我们对平台的未来充满期待

开始使用 Minimap2

# This command assumes all the inputs are in the current working directory and all the outputs go to the same place.
docker run --rm --gpus all --volume $(pwd):/workdir --volume $(pwd):/outputdir \
    --workdir /workdir \
    nvcr.io/nvidia/clara/clara-parabricks:4.7.0-1 \
    pbrun minimap2 \
    --ref /workdir/${REFERENCE_FILE} \
    --in-fq /workdir/${INPUT_FASTQ} \
    --out-bam /outputdir/${OUTPUT_BAM}

开始使用 fq2bam (BWA-MEM)

# This command assumes all the inputs are in the current working directory and all the outputs go to the same place.
docker run --rm --gpus all --volume $(pwd):/workdir --volume $(pwd):/outputdir \
    --workdir /workdir \
    nvcr.io/nvidia/clara/clara-parabricks:4.7.0-1 \
    pbrun fq2bam \
    --ref /workdir/${REFERENCE_FILE} \
    --in-fq /workdir/${INPUT_FASTQ_1} /workdir/${INPUT_FASTQ_2}  \
    --knownSites /workdir/${KNOWN_SITES_FILE} \
    --out-bam /outputdir/${OUTPUT_BAM} \
    --out-recal-file /outputdir/${OUTPUT_RECAL_FILE}

开始使用 DeepVariant

# This command assumes all the inputs are in the current working directory and all the outputs go to the same place.
docker run --rm --gpus all --volume $(pwd):/workdir --volume $(pwd):/outputdir \
    --workdir /workdir \
    nvcr.io/nvidia/clara/clara-parabricks:4.7.0-1 \
    pbrun deepvariant \
    --ref /workdir/${REFERENCE_FILE} \
    --in-bam /workdir/${INPUT_BAM} \
    --out-variants /outputdir/${OUTPUT_VCF}

利用 Openfold3 和 cuEquivariance 推进结构生物学发展

Openfold3 与 cuEquivariance 的集成进一步提升了 RTX PRO 平台在蛋白质结构推理方面的能力。得益于新一代 Blackwell Tensor Core,RTX PRO 4500 Blackwell 的运行速度相较 L4 基准最高提升达 2.3 倍,能够处理多达 1500 个氨基酸的蛋白质。

Openfold3+ cuEQ 0.10 (秒)
蛋白质大小 L4 级
1 块 GPU
(秒)
RTX PRO 4500 BSE
1 块 GPU
(秒)
加速
256 19.91% 8.71 2.3 倍
512 59.42 25.68 2.3 倍
1024 199.90 84.80 2.4 倍
1536 453.47 199.28 2.3 倍
表 2. 以秒为单位。使用的数据集包括:使用 Colabfold 数据库生成的输入 MSA,以及来自采样 CASP14 数据集的 mmseqs2。使用 BF16 精度进行推理

Smith-Waterman 对齐的高性能

RTX PRO 6000 和 RTX PRO 4500 GPU 利用 Blackwell 架构中引入的新 DPX 指令集进行动态编程,可为 Smith-Waterman 比对提供巨大的吞吐量。现在,所有开发者都可以通过最新的 CUDA 13.2 在 Math API 和 PTX 9.2 级别上广泛使用这项硬件加速功能,为 DNA、RNA 和蛋白质比对方法带来更高水平的加速,并支持 32 位、16 位和 8 位精度。

RTX PRO 4500 Blackwell 现在的速度是 L4 的 9.6 倍,使用上一代 DPX 时的性能与 H100 SXM 不相上下。若想获得更高的吞吐量,RTX PRO 6000 BSE 的性能比 RTX PRO 4500 BSE 高出 2.36 倍。

Smith-Waterman Alignment
性能
( GCUPS)
加速
CPU 基准 ( 256 个线程) 256 1.0 倍
NVIDIA L4 524 2.0 倍
NVIDIA RTX PRO 4500 BSE 4923 19.2 倍
表 3. 使用以秒为单位更新的十亿单元实现性能标准化。使用 SSW 库测量的 CPU 基准。来自 BWA 的 Affine 差距比对 (分数计算) 输入权重。输入数据集:使用 Illumina 测序仪的 HG002 (NA24385) 配对端协议

除了原始速度之外,RTX PRO 4500 的功耗比 H100 SXM 低 4.3 倍,同时为这种 Smith-Waterman 工作负载提供同等性能。

了解详情

了解 Parabricks、OpenFold 3 和 RTX PRO 4500 Blackwell 服务器版本如何加速您的精准医疗之旅。

加速基因组学和 AI 赋能的结构生物学的融合正在重新定义精准医疗的可能性,而且进展速度还在加快。

从将基因组分析从 NICU 中的数小时缩短到数分钟,到针对 130 多个药物标生成蛋白质结合剂并进行实验验证,支持这项工作的平台不再是研究目的,而是由 NVIDIA 实现的。

标签