CUDA-X Data Science

CUDA-X™ Data Science 是一套开源库集合，可加速流行的数据科学库与平台。它属于 CUDA-X 系列高度优化、基于 CUDA® 的特定领域库。

CUDA-X Data Science 提供无需更改代码的 API，可直接加速 pandas、scikit-learn 等流行 PyData 工具，以及 Apache Spark 等分布式计算框架。通过超过 100 种与数据科学和数据处理生态系统中开源库和工具的集成，CUDA-X Data Science 致力于让更多人轻松体验加速数据科学的能力。

立即下载文档

NVIDIA CUDA-X Data Science open-source libraries

CUDA-X 数据科学库

CUDA-X 数据科学库可加速数据分析、机器学习、图分析及数据密集型应用（如向量检索），让单颗 GPU 达到优异性能，也能通过简单、无需更改代码的接口，扩展至分布式系统。

cuDF：速度提升 50 倍的 pandas

cuDF 是一款 GPU 加速库，针对基础 DataFrame 操作进行优化。它为 pandas、Polars 及 Apache Spark 等流行 DataFrame 工具提供无需更改代码即可使用的加速能力。

标签：pandas，dataframe，Python，CC++

cuML：scikit-learn 速度提高 50 倍

cuML 是一款 GPU 加速的机器学习库，针对机器学习算法在 GPU 上的执行进行了优化。它为 scikit-learn、UMAP 和 HDBSCAN 等流行算法提供无需更改代码即可使用的加速能力。

标签：scikit-learn、机器学习、Python、C++

cuGraph：将 NetworkX 速度提高 48 倍

cuGraph 是一款 GPU 加速的图分析库，针对图算法在 GPU 上的执行进行了优化，无需专业软件即可处理数百万节点，并为 NetworkX 提供了无需更改代码即可使用的加速能力。

运行基准测试

查看文档

立即安装

标签：NetworkX、图形、Python、C++

使用 cuDF 加速 Apache Spark

详细了解适用于 Apache Spark 工作流的加速器插件。

详细了解 GPU 加速的 Spark

标签：机器学习，数据处理，分布式计算，Scala，Python

Dask-RAPIDS

将 GPU 加速的数据科学工作流扩展到 Dask 上的多个节点。

在 GitHub 上开始使用

标签：分布式计算、Python

cuxfilter

通过对超过 1 亿行的表格数据集进行多维过滤，创建交互式数据视觉效果。

开始使用 cuxfilter

标签：仪表板、可视化、Python

cuCIM

用于图像处理的镜像 scikit-image，以及使用 cuCIM API 加载图像的 OpenSlide。

cuCIM 入门

标签：计算机视觉、视觉处理、Python

cuVS

应用 cuVS 算法加速向量搜索，包括来自 CAGRA 的出色性能。

cuVS 入门

标签：向量搜索，Python，C++，c，腐蚀

RAFT

使用 RAFT 的 CUDA 加速基元快速编写分析。

开始使用 RAFT

标签：基元、算法、CUDA、Python、C++

KvikIO

通过与 cuFile 的强大绑定，充分利用 NVIDIA® GPUDirect® Storage (GDS) 。

开始使用 KviKIO

标签：FILEIO、GPUDirectStorage、Python、C++

其他 CUDA-X 数据科学和处理库

查看库和工具的完整列表。

查看 GitHub

开始使用

实战教程

培训

入门套件：使用 pandas Code 加速数据分析

此套件演示了如何使用 pandas 代码和 PyViz 库针对大规模数据创建响应式控制面板，同时利用 cuDF 加速探索性数据分析，且无需更改代码。

视频：借助 NVIDIA GPU 上的 pandas 加速探索性数据分析( 16：06)
Notebook：构建交互式控制面板 Notebook

入门套件：基于 XGBoost 的加速机器学习

XGBoost 是用于梯度提升决策树的热门 Python 库。它为机器学习模型的分类、回归和排名工作流程提供强力支持。

视频：

基于 NVIDIA GPU 的 XGBoost 加速机器学习( 20：10)
Notebook：开始在 GPU 上加速 XGBoost 工作流

入门套件：使用 cuML 代码加速机器学习

cuML 可加速流行的机器学习算法，包括随机森林、UMAP 和 HDBSCAN

入门套件：使用 Apache Spark 加速数据分析

适用于 Apache Spark 的 NVIDIA RAPIDS™ 加速器可加速企业级数据工作负载，从而节约成本。

视频：使用适用于 Apache Spark 的 RAPIDS 加速器在 GPU 上加速数据分析( 1：27：34)
博客：使用 GPU 预测 Apache Spark 的性能
用户指南：适用于 Apache Spark 的 RAPIDS 加速器用户指南

入门套件：使用 Polars Code 加速数据分析

Polars 以高性能和内存优化而闻名。调用由 cuDF 提供支持的 GPU 引擎，体验更快的执行速度。

入门套件：使用 NetworkX Code 加速图形分析

NetworkX 可加速热门图形算法，包括 Louvain、Betweeness Centrality 和 PageRank。

视频：借助 NVIDIA cuGraph，实现高达 500 倍的网络加速，且无需更改代码( 00：42)
博客：NetworkX 使用 NVIDIA cuGraph 实现零代码更改加速
Notebook：加速图形分析 Notebook

数据科学学习路径

概述 DLI 为加速数据科学提升技能而提供的所有内容。

了解详情

无需更改代码即可加速数据科学工作流程

参加我们的免费自定进度课程，了解如何通过零代码更改加速实现工作流程转型。

了解详情

获得加速数据科学认证

通过我们的认证课程，更深入地了解加速数据科学。

了解详情

在您的环境中安装和部署

快速安装

部署指南

使用 conda 快速安装

1. 如果未安装，请下载并运行安装脚本。这将安装最新的 miniforge：

wget "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh"
bash Miniforge3-$(uname)-$(uname -m).sh

2. 然后使用以下命令进行安装：

conda create -n rapids-26.04 -c rapidsai -c conda-forge rapids=26.04 python=3.13 'cuda-version>=13.0,<=13.1'

使用 pip 快速安装

Install via the NVIDIA PyPI index:

pip install \
  --extra-index-url=https://pypi.nvidia.com \
  cudf-cu13==26.4.* \
  dask-cudf-cu13==26.4* \
  cuml-cu13==26.4.* \
  cugraph-cu13==26.4.*

本地部署

使用本指南在本地计算机上安装和构建 conda、pip、Docker 或 WSL2。

阅读本地部署指南

在平台上部署

在您选择的平台 (包括 Kubernetes、Databricks 和 Google Colab) 上部署 CUDA-X 数据科学库。

阅读平台指南

云端部署

在 AWS、Azure、GCP 等平台中运行 CUDA-X 数据科学库。

阅读云部署指南

加速数据科学生态系统

开源库、商业软件和行业的数据从业者正在利用 CUDA-X 数据科学推动创新。

开源库

平台

行业采用

AT&T 在其数据到 AI 工作流中的 GPU 集群上应用了适用于 Apache Spark 的 RAPIDS 加速器。

阅读博客

Bunq 使用 NVIDIA CUDA-X 库将模型训练速度提高了 100 倍，数据处理速度提高了 5 倍，从而提高了欺诈检测的准确性。

阅读博客

Capital One 加速了其金融和信用分析流程，将模型训练速度提高了 100 倍。

观看点播会议

借助 NVIDIA cuDF，Checkout.com 将数据分析工作流的速度从几分钟缩短到几秒钟。

阅读博客

IRS 团队在 Cloudera 数据平台上使用适用于 Apache Spark 的 RAPIDS 加速器发现了欺诈行为。

阅读博客

LinkedIn 开发了 DARWIN，以便在 NVIDIA cuDF 上实现更快的数据分析。

观看点播会议

NASA 使用 CUDA-X 数据科学来检测和量化空气污染异常情况，并构建偏差校正模型。

阅读博客：第一部分阅读博客：第二部分

PayPal 借助适用于 Apache Spark 的 RAPIDS 加速器将云成本降低了 70%。

观看点播会议

广告平台 Taboola 使用适用于 Apache Spark 的 RAPIDS 加速器处理 TB 级的小时数据。

观看点播会议

借助基于 CUDA-X 数据科学的 RAPIDS 单细胞，TGen 将 400 万个单元数据集的分析时间从 10 小时缩短到 3 分钟。

阅读客户案例

TCS Optumera 利用适用于 Apache Spark 的 RAPIDS 加速器加速其需求预测管道。

观看点播会议

Uber 开发了支持 Spark 3.x 和 GPU 调度的 Horovod。

观看点播会议

沃尔玛使用其产品替代算法解决了可扩展性问题。

观看点播会议

加入社区

加入 Slack 上的加速数据科学社区

注册以接收数据科学时事通讯

伦理 AI

NVIDIA 认为，可信赖的人工智能（Trustworthy AI）是各方共同的责任，为广泛的 AI 应用开发建立了相关政策和实践。用户在遵守服务条款下载或使用产品时，需与支持团队协作，确保其应用满足相关行业和场景的要求，并妥善应对产品被误用的风险。

如需报告安全漏洞或 NVIDIA AI 相关问题，请点击提交。

立即下载 CUDA-X 数据科学库。

下载

CUDA-X Data Science

CUDA-X 数据科学库

cuDF：速度提升 50 倍的 pandas

cuML：scikit-learn 速度提高 50 倍

cuGraph：将 NetworkX 速度提高 48 倍

使用 cuDF 加速 Apache Spark

Dask-RAPIDS

cuxfilter

cuCIM

cuVS

RAFT

KvikIO

其他 CUDA-X 数据科学和处理库

开始使用

入门套件：使用 pandas Code 加速数据分析

入门套件：基于 XGBoost 的加速机器学习

基于 NVIDIA GPU 的 XGBoost 加速机器学习( 20：10)

入门套件：使用 cuML 代码加速机器学习

入门套件：使用 Apache Spark 加速数据分析

入门套件：使用 Polars Code 加速数据分析

入门套件：使用 NetworkX Code 加速图形分析

数据科学学习路径

无需更改代码即可加速数据科学工作流程

获得加速数据科学认证

在您的环境中安装和部署

使用 conda 快速安装

使用 pip 快速安装

本地部署

在平台上部署

云端部署

加速数据科学生态系统

加入社区

加入 Slack 上的加速数据科学社区

注册以接收数据科学时事通讯

伦理 AI

立即下载 CUDA-X 数据科学库。