vllm安装部署
AI-摘要
KunKunYu GPT
AI初始化中...
介绍自己
生成本文简介
推荐相关文章
前往主页
前往tianli博客
本文最后更新于 2026-05-13,文章内容可能已经过时。
1)创建vllm虚拟环境
sudo apt update
sudo apt install -y python3.12-venv
mkdir -p /data/vllm
python3 -m venv /data/vllm/venv
source /data/vllm/venv/bin/activate
#成功后,提示符前面通常会出现:(venv)或者:(vllm),具体名字看环境目录,但总之会多一段括号。
怎么判断自己是不是已经进了虚拟环境
执行:
which python
which pip
如果已经进入虚拟环境,应该看到类似:
/data/vllm/venv/bin/python
/data/vllm/venv/bin/pip
如果想退出虚拟环境
deactivate
2)安装 vLLM
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple setuptools wheel
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U pip
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple vllm
安装完成的关键证据就是最后这句:
Successfully installed ... vllm-0.20.23)验证安装
python -c "import vllm; print(vllm.__version__)"
开一个新的shell窗口:
新建一个 modelscope 专用环境
mkdir -p /data/modelscope
python3 -m venv /data/modelscope/venv
source /data/modelscope/venv/bin/activate
安装 modelscope
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple modelscope
验证
modelscope --help
然后再下载模型
先建目录:
mkdir -p /data/models
再下载:
modelscope download --model Qwen/Qwen3.6-35B-A3B --local_dir /data/models/Qwen3.6-35B-A3B
判断模型是否下载完成的关键依据就是这一句:
Successfully Downloaded from model Qwen/Qwen3.6-35B-A3B.
而且后面已经回到了 shell 提示符:
(venv) cq@cqai:/data/models$
这说明:
下载命令已经执行完
没有卡在后台继续跑
终端里那些重复/错位的进度条字符,只是刷新残影,不是失败
回到vllm的安装的shell窗口:
vllm已经安装好了,那么就可以准备通过vllm启动模型;
source /data/vllm/venv/bin/activate
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple "modelscope>=1.18.1"source /data/vllm/venv/bin/activate
unset VLLM_SLEEP_WHEN_IDLE
unset VLLM_USE_DEEP_GEMM
unset VLLM_USE_FLASHINFER_MOE_FP16
unset VLLM_USE_FLASHINFER_SAMPLER
unset OMP_NUM_THREADS
VLLM_USE_MODELSCOPE=true vllm serve /data/models/Qwen3.6-35B-A3B-AWQ \
--host 0.0.0.0 \
--port 8000 \
--served-model-name Qwen3.6-35B-A3B-AWQ \
--max-num-seqs 8 \
--max-model-len 8192 \
--gpu-memory-utilization 0.85耐心等待后测试一下: curl http://127.0.0.1:8000/v1/models
cq@cqai:~$ curl http://127.0.0.1:8000/v1/models
{“object”:“list”,“data”:[{“id”:“Qwen3.6-35B-A3B-AWQ”,“object”:“model”,“created”:1778643784,“owned_by”:“vllm”,“root”:“/data/models/Qwen3.6-35B-A3B-AWQ”,“parent”:null,“max_model_len”:8192,“permission”:[{“id”:“modelperm-becf5824c110063a”,“object”:“model_permission”,“created”:1778643784,“allow_create_engine”:false,“allow_sampling”:true,“allow_logprobs”:true,“allow_search_indices”:false,“allow_view”:true,“allow_fine_tuning”:false,“organization”:“*”,“group”:null,“is_blocking”:false}]}]}
cq@cqai:~$vLLM 已经正式启动成功。
这条返回就是铁证:
{"object":"list","data":[{"id":"Qwen3.6-35B-A3B-AWQ", ... }]}
这说明:
API 服务已经监听在
8000OpenAI 兼容接口可用
模型
Qwen3.6-35B-A3B-AWQ已成功注册这台 4090 49GB 已经把这套 vLLM + AWQ 35B-A3B 跑起来了
现在的状态总结
已完成
vLLM 安装成功
ModelScope 模型下载成功
AWQ 量化版下载成功
Qwen3.6-35B-A3B-AWQ已成功启动/v1/models已验证通过
- 感谢你赐予我前进的力量
赞赏者名单
因为你们的支持让我意识到写文章的价值🙏
本文是原创文章,采用 CC BY-NC-ND 4.0 协议,完整转载请注明来自 shaun
评论
匿名评论
隐私政策
你无需删除空行,直接评论以获取最佳展示效果