CUDA-X Data Science

CUDA-X™ Data Science 是一套开源库集合,可加速流行的数据科学库与平台。它属于 CUDA-X 系列高度优化、基于 CUDA® 的特定领域库。

CUDA-X Data Science 提供无需更改代码的 API,可直接加速 pandas、scikit-learn 等流行 PyData 工具,以及 Apache Spark 等分布式计算框架。通过超过 100 种与数据科学和数据处理生态系统中开源库和工具的集成,CUDA-X Data Science 致力于让更多人轻松体验加速数据科学的能力。

立即下载文档

 NVIDIA CUDA-X Data Science open-source libraries

CUDA-X 数据科学库

CUDA-X 数据科学库可加速数据分析、机器学习、图分析及数据密集型应用(如向量检索),让单颗 GPU 达到优异性能,也能通过简单、无需更改代码的接口,扩展至分布式系统。

cuDF:速度提升 50 倍的 pandas

cuDF 是一款 GPU 加速库,针对基础 DataFrame 操作进行优化。它为 pandas、Polars 及 Apache Spark 等流行 DataFrame 工具提供无需更改代码即可使用的加速能力。

运行基准测试
查看文档
立即安装

标签:pandas,dataframe,Python,CC++

cuML:scikit-learn 速度提高 50 倍

cuML 是一款 GPU 加速的机器学习库,针对机器学习算法在 GPU 上的执行进行了优化。它为 scikit-learn、UMAP 和 HDBSCAN 等流行算法提供无需更改代码即可使用的加速能力。

运行基准测试
查看文档
立即安装

标签:scikit-learn、机器学习、Python、C++

cuGraph:将 NetworkX 速度提高 48 倍

cuGraph 是一款 GPU 加速的图分析库,针对图算法在 GPU 上的执行进行了优化,无需专业软件即可处理数百万节点,并为 NetworkX 提供了无需更改代码即可使用的加速能力。

运行基准测试
查看文档
立即安装

标签:NetworkX、图形、Python、C++

使用 cuDF 加速 Apache Spark

详细了解适用于 Apache Spark 工作流的加速器插件。

标签:机器学习,数据处理,分布式计算,Scala,Python

Dask-RAPIDS

将 GPU 加速的数据科学工作流扩展到 Dask 上的多个节点。

标签:分布式计算、Python

cuxfilter

通过对超过 1 亿行的表格数据集进行多维过滤,创建交互式数据视觉效果。

标签:仪表板、可视化、Python

cuCIM

用于图像处理的镜像 scikit-image,以及使用 cuCIM API 加载图像的 OpenSlide。

标签:计算机视觉、视觉处理、Python

cuVS

应用 cuVS 算法加速向量搜索,包括来自 CAGRA 的出色性能。

标签:向量搜索,Python,C++,c,腐蚀

RAFT

使用 RAFT 的 CUDA 加速基元快速编写分析。

标签:基元、算法、CUDA、Python、C++

KvikIO

通过与 cuFile 的强大绑定,充分利用 NVIDIA® GPUDirect® Storage (GDS) 。

标签:FILEIO、GPUDirectStorage、Python、C++

其他 CUDA-X 数据科学和处理库

查看库和工具的完整列表。


开始使用

入门套件:使用 pandas Code 加速数据分析

此套件演示了如何使用 pandas 代码和 PyViz 库针对大规模数据创建响应式控制面板,同时利用 cuDF 加速探索性数据分析,且无需更改代码。

入门套件:基于 XGBoost 的加速机器学习

XGBoost 是用于梯度提升决策树的热门 Python 库。它为机器学习模型的分类、回归和排名工作流程提供强力支持。

入门套件:使用 cuML 代码加速机器学习

cuML 可加速流行的机器学习算法,包括随机森林、UMAP 和 HDBSCAN

入门套件:使用 Apache Spark 加速数据分析

适用于 Apache Spark 的 NVIDIA RAPIDS™ 加速器可加速企业级数据工作负载,从而节约成本。

入门套件:使用 Polars Code 加速数据分析

Polars 以高性能和内存优化而闻名。调用由 cuDF 提供支持的 GPU 引擎,体验更快的执行速度。

入门套件:使用 NetworkX Code 加速图形分析

NetworkX 可加速热门图形算法,包括 Louvain、Betweeness Centrality 和 PageRank。

数据科学学习路径

概述 DLI 为加速数据科学提升技能而提供的所有内容。

无需更改代码即可加速数据科学工作流程

参加我们的免费自定进度课程,了解如何通过零代码更改加速实现工作流程转型。

获得加速数据科学认证

通过我们的认证课程,更深入地了解加速数据科学。


在您的环境中安装和部署

使用 conda 快速安装

1. 如果未安装,请下载并运行安装脚本。这将安装最新的 miniforge:

wget 
"https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh"
bash Miniforge3-$(uname)-$(uname -m).sh

2. 然后使用以下命令进行安装:

conda create -n rapids-25.06 -c rapidsai -c conda-forge -c nvidia rapids=25.06 python=3.13 
cuda-version=12.9

使用 pip 快速安装

Install via the NVIDIA PyPI index:

pip install \
  --extra-index-url=https://pypi.nvidia.com \
  cudf-cu12==25.6.* \
  dask-cudf-cu12==25.6.* \
  cuml-cu12==25.6.* \
  cuGraph-cu12==25.6.*

本地部署

使用本指南在本地计算机上安装和构建 conda、pip、Docker 或 WSL2。

在平台上部署

在您选择的平台 (包括 Kubernetes、Databricks 和 Google Colab) 上部署 CUDA-X 数据科学库。

云端部署

在 AWS、Azure、GCP 等平台中运行 CUDA-X 数据科学库。


加速数据科学生态系统

开源库、商业软件和行业的数据从业者正在利用 CUDA-X 数据科学推动创新。

Data Science Open-Source Library - Apache Arrow
Data Science Open-Source Library - Apache Spark
Data Science Open-Source Library - CuPy
 Data Science Open-Source Library - Dask
Data Science Open-Source Library - Dmlc XGBoost
 Data Science Open-Source Library - HoloViz
Data Science Open-Source Library - NetworkX
Data Science Open-Source Library - Numba
 Data Science Open-Source Library - Polars
Data Science Open-Source Library - PyG
Data Science Open-Source Library - PyTorch
Data Science Open-Source Library - Scikit Learn
 Data Science Open-Source Library - scverse
Data Science Platform - Amazon SageMaker
Data Science Platform - Anaconda
Data Science Platform - Azure Machine Learning
Data Science Platform - Cloudera
Data Science Platform - Databricks
Data Science Platform - Google Cloud Dataproc
Data Science Platform - Determined AI
Data Science Platform - Domino
Data Science Platform - Google Colab
Data Science Platform - Iguazio
Data Science Platform - Snowflake
Data Science Industry Adoption - AT&T

AT&T 在其数据到 AI 工作流中的 GPU 集群上应用了适用于 Apache Spark 的 RAPIDS 加速器。

阅读博客
 Data Science Industry Adoption - bunq

Bunq 使用 NVIDIA CUDA-X 库将模型训练速度提高了 100 倍,数据处理速度提高了 5 倍,从而提高了欺诈检测的准确性。

阅读博客
 Data Science Industry Adoption - CapitalOne

Capital One 加速了其金融和信用分析流程,将模型训练速度提高了 100 倍。

观看点播会议
Data Science Industry Adoption - Checkout.com

借助 NVIDIA cuDF,Checkout.com 将数据分析工作流的速度从几分钟缩短到几秒钟。

阅读博客
Data Science Industry Adoption - Cloudera

IRS 团队在 Cloudera 数据平台上使用适用于 Apache Spark 的 RAPIDS 加速器发现了欺诈行为。

阅读博客
Data Science Industry Adoption - Linkedin

LinkedIn 开发了 DARWIN,以便在 NVIDIA cuDF 上实现更快的数据分析。

观看点播会议
Data Science Industry Adoption - NASA

NASA 使用 CUDA-X 数据科学来检测和量化空气污染异常情况,并构建偏差校正模型。

阅读博客:第一部分阅读博客:第二部分
Data Science Industry Adoption - PayPal

PayPal 借助适用于 Apache Spark 的 RAPIDS 加速器将云成本降低了 70%。

观看点播会议
 Data Science Industry Adoption - Taboola

广告平台 Taboola 使用适用于 Apache Spark 的 RAPIDS 加速器处理 TB 级的小时数据。

观看点播会议
Data Science Industry Adoption - Tgen

借助基于 CUDA-X 数据科学的 RAPIDS 单细胞,TGen 将 400 万个单元数据集的分析时间从 10 小时缩短到 3 分钟。

阅读客户案例
Data Science Industry Adoption - TCS

TCS Optumera 利用适用于 Apache Spark 的 RAPIDS 加速器加速其需求预测管道。

观看点播会议
Data Science Industry Adoption - Uber

Uber 开发了支持 Spark 3.x 和 GPU 调度的 Horovod。

观看点播会议
Data Science Industry Adoption - Walmart

沃尔玛使用其产品替代算法解决了可扩展性问题。

观看点播会议

加入社区

加入 Slack 上的加速数据科学社区

注册以接收数据科学时事通讯


伦理 AI

NVIDIA 认为,可信赖的人工智能(Trustworthy AI)是各方共同的责任,为广泛的 AI 应用开发建立了相关政策和实践。用户在遵守服务条款下载或使用产品时,需与支持团队协作,确保其应用满足相关行业和场景的要求,并妥善应对产品被误用的风险。

如需报告安全漏洞或 NVIDIA AI 相关问题,请点击提交。

立即下载 CUDA-X 数据科学库。

下载