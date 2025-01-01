第 1 步 - 验证系统要求



使用以下命令验证系统是否已安装 CUDA 13：nvcc --version 或者 nvidia-smi



使用以下命令安装 conda



使用以下方式创建 Kaggle API 密钥并将 kaggle.json 文件放置在与 notebook 同一文件夹中



第 2 步 - 安装数据科学库



使用以下命令安装 CUDA-X 库（这将创建一个新的 conda 环境）



conda create -n rapids-test -c rapidsai -c conda-forge -c nvidia \ rapids=25.10 python=3.12 'cuda-version=13.0' \ jupyter hdbscan umap-learn

第 3 步 - 激活 conda 环境



conda activate rapids-test

第 4 步 - 克隆 playbook 库



克隆 GitHub 仓库并进入 cuda-x-data-science 文件夹内的 assets 文件夹

git clone https://github.com/NVIDIA/dgx-spark-playbooks

将第一步创建的 kaggle.json 文件放置到 assets 文件夹中



第 5 步 - 运行 notebooks



GitHub 代码库中有两个 notebook。其中一个运行了基于 pandas 在 GPU 上处理大型字符串数据的工作流示例。



运行 cudf_pandas_demo.ipynb notebook 并在浏览器中访问 localhost:8888

jupyter notebook cudf_pandas_demo.ipynb

另一个 notebook 讲解了机器学习算法示例，包括 UMAP 和 HDBSCAN 。



运行 cuml_sklearn_demo.ipynb 并使用 localhost:8888 在浏览器中访问 notebook

jupyter notebook cuml_sklearn_demo.ipynb

如果您要远程访问 DGX-Spark，请确保转发必要的端口，以便在本地浏览器中访问该 notebook。请按照以下说明进行端口转发。



ssh -N -L YYYY:localhost:XXXX username@remote_host