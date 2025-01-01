第 1 步 – 配置 Docker 权限



要轻松管理容器而无需使用 sudo，您必须处于 Docker 组中。如果您选择跳过此步骤，则需要使用 sudo 运行 Docker 命令。

打开一个新的终端并测试 Docker 访问权限。在终端中运行：



docker ps

如果您看到权限被拒绝错误（例如 permission denied while trying to connect to the Docker daemon socket），请将您的用户添加到 docker 组，这样就不再需要使用 sudo 命令。



sudo usermod -aG docker $USER newgrp docker

第 2 步 – 准备环境



创建一个本地输出目录，用于存储量化后的模型文件。该目录将被挂载到容器中，以便在容器退出后保留结果。



mkdir -p ./output_models chmod 755 ./output_models

第 3 步 - 使用 Hugging Face 验证

通过设置 Hugging Face 身份验证令牌来确保可以访问 DeepSeek 模型。



# Export your Hugging Face token as an environment variable # Get your token from: https://huggingface.co/settings/tokens export HF_TOKEN="your_token_here"

容器将自动使用该令牌进行模型下载。



第 4 步 - 运行 TensorRT 模型优化器容器



启动 TensorRT-LLM 容器，启用 GPU 访问权限，针对多 GPU 工作负载优化 IPC 设置，并挂载卷以进行模型缓存和输出持久化。



docker run --rm -it --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 \ -v "./output_models:/workspace/output_models" \ -v "$HOME/.cache/huggingface:/root/.cache/huggingface" \ -e HF_TOKEN=$HF_TOKEN \ nvcr.io/nvidia/tensorrt-llm/release:spark-single-gpu-dev \ bash -c " git clone -b 0.35.0 --single-branch https://github.com/NVIDIA/Model-Optimizer.git /app/TensorRT-Model-Optimizer && \ cd /app/TensorRT-Model-Optimizer && pip install -e '.[dev]' && \ export ROOT_SAVE_PATH='/workspace/output_models' && \ /app/TensorRT-Model-Optimizer/examples/llm_ptq/scripts/huggingface_example.sh \ --model 'deepseek-ai/DeepSeek-R1-Distill-Qwen-7B' \ --quant nvfp4 \ --tp 1 \ --export_fmt hf "

注意：您可能会遇到这种情况 pynvml.NVMLError_NotSupported：Not Supported. 在某些环境下，出现这种情况属于正常现象，不会影响结果，我们将在即将发布的版本中修复此问题。注意：如果您的模型过大，可能会遇到内存不足的错误。您可以尝试量化一个较小的模型。



这条命令：



以完全 GPU 访问权限和优化的共享内存设置运行容器



将输出目录挂载到持久化量化模型文件的位置



挂载您的 Hugging Face 缓存，以避免重新下载模型。



从源代码克隆并安装 TensorRT 模型优化器



使用 NVFP4 量化参数执行量化脚本



第 5 步 - 监控量化过程



量化过程将显示以下进度信息：



来自 Hugging Face 的模型下载进度

量化校准步骤



模型导出和验证阶段



第 6 步 - 验证量化模型



容器完成后，验证量化模型文件是否已成功创建。



# Check output directory contents ls -la ./output_models/ # Verify model files are present find ./output_models/ -name "*.bin" -o -name "*.safetensors" -o -name "config.json"

您应该在输出目录中看到模型权重文件、配置文件和分词器文件。



第 7 步 - 测试模型加载



首先，设置量化模型的路径：



# Set path to quantized model directory export MODEL_PATH="./output_models/saved_models_DeepSeek-R1-Distill-Qwen-7B_nvfp4_hf/"

现在使用一个简单的测试来验证量化模型是否可以正确加载：



docker run \ -e HF_TOKEN=$HF_TOKEN \ -v $HOME/.cache/huggingface/:/root/.cache/huggingface/ \ -v "$MODEL_PATH:/workspace/model" \ --rm -it --ulimit memlock=-1 --ulimit stack=67108864 \ --gpus=all --ipc=host --network host \ nvcr.io/nvidia/tensorrt-llm/release:spark-single-gpu-dev \ bash -c ' python examples/llm-api/quickstart_advanced.py \ --model_dir /workspace/model/ \ --prompt "Paris is great because" \ --max_tokens 64 '

第 8 步 - 使用 OpenAI 兼容的 API 运行模型



使用量化模型启动 TensorRT-LLM OpenAI 兼容 API 服务器。首先，设置量化模型的路径：



# Set path to quantized model directory export MODEL_PATH="./output_models/saved_models_DeepSeek-R1-Distill-Qwen-7B_nvfp4_hf/" docker run \ -e HF_TOKEN=$HF_TOKEN \ -v "$MODEL_PATH:/workspace/model" \ --rm -it --ulimit memlock=-1 --ulimit stack=67108864 \ --gpus=all --ipc=host --network host \ nvcr.io/nvidia/tensorrt-llm/release:spark-single-gpu-dev \ trtllm-serve /workspace/model \ --backend pytorch \ --max_batch_size 4 \ --port 8000

运行以下命令，使用客户端 CURL 请求测试服务器：



curl -X POST http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B", "messages": [{"role": "user", "content": "What is artificial intelligence?"}], "max_tokens": 100, "temperature": 0.7, "stream": false }'

第 9 步 - 清理和回滚



清理环境并删除生成的文件：



警告： 这将永久删除所有量化模型文件和缓存数据。



# Remove output directory and all quantized models rm -rf ./output_models # Remove Hugging Face cache (optional) rm -rf ~/.cache/huggingface # Remove Docker image (optional) docker rmi nvcr.io/nvidia/tensorrt-llm/release:spark-single-gpu-dev

第 10 步 - 后续步骤



可部署的量化模型现已准备就绪。后续步骤通常包括：

