CUDA-X 数据科学

安装并使用 NVIDIA cuML 和 NVIDIA cuDF,加速 UMAP、HDBSCAN、pandas 等工作负载,而且无需修改任何代码。

基本概念

本操作手册包含两个示例 notebook,演示了如何使用 CUDA-X 数据科学库加速关键机器学习算法和核心 pandas 操作:

  • NVIDIA cuDF:无需更改代码,即可加速 8GB 字符串数据的数据准备和核心处理操作。

  • NVIDIA cuML:无需更改代码,即可加速 scikit-learn (LinearSVC)、UMAP 和 HDBSCAN 等常用的计算密集型机器学习算法。

CUDA-X 数据科学(原 RAPIDS)是一个开源库集合,旨在加速数据科学和数据处理生态。这些库无需任何代码更改即可加速诸如 scikit-learn 和 pandas 等流行的 Python 工具。在 DGX Spark 上,这些库能够利用您现有的代码,最大限度地提升桌面性能。

您将完成

您将学习如何利用 GPU 加速常用的机器学习算法和数据分析操作。您将了解如何加速常用的 Python 工具,以及在 DGX Spark 上运行数据科学工作流的价值。

先决条件

  • 熟悉 pandas、scikit-learn及支持向量机、聚类、降维等机器学习算法。

  • 安装 conda

  • 生成 Kaggle API 密钥

时间和风险

  • 预估时间:设置时间为 20-30 分钟,运行每个notebook需要 2-3 分钟。

  • 风险级别:
    • 由于网络问题导致数据下载缓慢或失败

    • Kaggle API 生成失败,需要重试

  • 还原方式:正常使用期间未对系统进行任何永久性更改。

  • 最后更新:2025 年 11 月 7 日
    • 进行了少量文字修改

第 1 步 - 验证系统要求

  • 使用以下命令验证系统是否已安装 CUDA 13:nvcc --version 或者 nvidia-smi

  • 使用以下命令安装 conda

  • 使用以下方式创建 Kaggle API 密钥并将 kaggle.json 文件放置在与 notebook 同一文件夹中

第 2 步 - 安装数据科学库

使用以下命令安装 CUDA-X 库(这将创建一个新的 conda 环境)

conda create -n rapids-test -c rapidsai -c conda-forge -c nvidia \
rapids=25.10 python=3.12 'cuda-version=13.0' \
jupyter hdbscan umap-learn

第 3 步 - 激活 conda 环境

  conda activate rapids-test

第 4 步 - 克隆 playbook 库

  • 克隆 GitHub 仓库并进入 cuda-x-data-science 文件夹内的 assets 文件夹

    git clone https://github.com/NVIDIA/dgx-spark-playbooks
  • 将第一步创建的 kaggle.json 文件放置到 assets 文件夹中

第 5 步 - 运行 notebooks

GitHub 代码库中有两个 notebook。其中一个运行了基于 pandas 在 GPU 上处理大型字符串数据的工作流示例。

  • 运行 cudf_pandas_demo.ipynb notebook 并在浏览器中访问 localhost:8888

    jupyter notebook cudf_pandas_demo.ipynb

另一个 notebook 讲解了机器学习算法示例,包括 UMAP 和 HDBSCAN 。

  • 运行 cuml_sklearn_demo.ipynb 并使用 localhost:8888 在浏览器中访问 notebook

    jupyter notebook cuml_sklearn_demo.ipynb
    

如果您要远程访问 DGX-Spark,请确保转发必要的端口,以便在本地浏览器中访问该 notebook。请按照以下说明进行端口转发。

ssh -N -L YYYY:localhost:XXXX username@remote_host
  • YYYY:您要使用的本地端口(例如 8888)

  • XXXX:您在远程机器上启动 Jupyter Notebook 时指定的端口(例如 8888)

  • -N:禁止SSH 执行远程命令

  • -L:指定本地端口转发


资源

NVIDIA RAPIDS 文档

DGX Spark 文档

DGX Spark 论坛