vllm安装部署

shaun 字数: 8042 阅读耗时: 20 分钟 2026/05/13 2026/05/13 博客独享热度: 17 评论: 0

本文最后更新于 2026-05-13，文章内容可能已经过时。

1）创建vllm虚拟环境

sudo apt update
sudo apt install -y python3.12-venv
mkdir -p /data/vllm
python3 -m venv /data/vllm/venv
source /data/vllm/venv/bin/activate
#成功后，提示符前面通常会出现：(venv)或者：(vllm),具体名字看环境目录，但总之会多一段括号。

怎么判断自己是不是已经进了虚拟环境

执行：

which python
which pip

如果已经进入虚拟环境，应该看到类似：

/data/vllm/venv/bin/python
/data/vllm/venv/bin/pip

如果想退出虚拟环境

deactivate

2）安装 vLLM

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple setuptools wheel
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U pip
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple vllm

安装完成的关键证据就是最后这句：

Successfully installed ... vllm-0.20.2

3）验证安装

python -c "import vllm; print(vllm.__version__)"

开一个新的shell窗口:

新建一个 modelscope 专用环境

mkdir -p /data/modelscope
python3 -m venv /data/modelscope/venv
source /data/modelscope/venv/bin/activate

安装 modelscope

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple modelscope

验证

modelscope --help

然后再下载模型

先建目录：

mkdir -p /data/models

再下载:

modelscope download --model Qwen/Qwen3.6-35B-A3B --local_dir /data/models/Qwen3.6-35B-A3B

判断模型是否下载完成的关键依据就是这一句：

Successfully Downloaded from model Qwen/Qwen3.6-35B-A3B.

而且后面已经回到了 shell 提示符：

(venv) cq@cqai:/data/models$

这说明：

下载命令已经执行完
没有卡在后台继续跑
终端里那些重复/错位的进度条字符，只是刷新残影，不是失败

回到vllm的安装的shell窗口:

vllm已经安装好了,那么就可以准备通过vllm启动模型;

source /data/vllm/venv/bin/activate
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple "modelscope>=1.18.1"

source /data/vllm/venv/bin/activate

unset VLLM_SLEEP_WHEN_IDLE
unset VLLM_USE_DEEP_GEMM
unset VLLM_USE_FLASHINFER_MOE_FP16
unset VLLM_USE_FLASHINFER_SAMPLER
unset OMP_NUM_THREADS

VLLM_USE_MODELSCOPE=true vllm serve /data/models/Qwen3.6-35B-A3B-AWQ \
 --host 0.0.0.0 \
 --port 8000 \
 --served-model-name Qwen3.6-35B-A3B-AWQ \
 --max-num-seqs 8 \
 --max-model-len 8192 \
 --gpu-memory-utilization 0.85

耐心等待后测试一下: curl http://127.0.0.1:8000/v1/models

cq@cqai:~$ curl http://127.0.0.1:8000/v1/models
{“object”:“list”,“data”:[{“id”:“Qwen3.6-35B-A3B-AWQ”,“object”:“model”,“created”:1778643784,“owned_by”:“vllm”,“root”:“/data/models/Qwen3.6-35B-A3B-AWQ”,“parent”:null,“max_model_len”:8192,“permission”:[{“id”:“modelperm-becf5824c110063a”,“object”:“model_permission”,“created”:1778643784,“allow_create_engine”:false,“allow_sampling”:true,“allow_logprobs”:true,“allow_search_indices”:false,“allow_view”:true,“allow_fine_tuning”:false,“organization”:“*”,“group”:null,“is_blocking”:false}]}]}
cq@cqai:~$

vLLM 已经正式启动成功。

这条返回就是铁证：

{"object":"list","data":[{"id":"Qwen3.6-35B-A3B-AWQ", ... }]}

这说明：

API 服务已经监听在 8000
OpenAI 兼容接口可用
模型 Qwen3.6-35B-A3B-AWQ 已成功注册
这台 4090 49GB 已经把这套 vLLM + AWQ 35B-A3B 跑起来了

现在的状态总结

已完成

vLLM 安装成功
ModelScope 模型下载成功
AWQ 量化版下载成功
Qwen3.6-35B-A3B-AWQ 已成功启动
/v1/models 已验证通过