本文最后更新于 2026-05-13,文章内容可能已经过时。

1)创建vllm虚拟环境

sudo apt update
sudo apt install -y python3.12-venv
mkdir -p /data/vllm
python3 -m venv /data/vllm/venv
source /data/vllm/venv/bin/activate
#成功后,提示符前面通常会出现:(venv)或者:(vllm),具体名字看环境目录,但总之会多一段括号。

怎么判断自己是不是已经进了虚拟环境

执行:

which python
which pip

如果已经进入虚拟环境,应该看到类似:

/data/vllm/venv/bin/python
/data/vllm/venv/bin/pip

如果想退出虚拟环境

deactivate

2)安装 vLLM

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple setuptools wheel
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U pip
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple vllm

安装完成的关键证据就是最后这句:

Successfully installed ... vllm-0.20.2

3)验证安装

python -c "import vllm; print(vllm.__version__)"

开一个新的shell窗口:

新建一个 modelscope 专用环境

mkdir -p /data/modelscope
python3 -m venv /data/modelscope/venv
source /data/modelscope/venv/bin/activate

安装 modelscope

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple modelscope

验证

modelscope --help

然后再下载模型

先建目录:

mkdir -p /data/models

再下载:

modelscope download --model Qwen/Qwen3.6-35B-A3B --local_dir /data/models/Qwen3.6-35B-A3B


判断模型是否下载完成的关键依据就是这一句:

Successfully Downloaded from model Qwen/Qwen3.6-35B-A3B.

而且后面已经回到了 shell 提示符:

(venv) cq@cqai:/data/models$

这说明:

  • 下载命令已经执行完

  • 没有卡在后台继续跑

  • 终端里那些重复/错位的进度条字符,只是刷新残影,不是失败

回到vllm的安装的shell窗口:

vllm已经安装好了,那么就可以准备通过vllm启动模型;

source /data/vllm/venv/bin/activate
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple "modelscope>=1.18.1"
source /data/vllm/venv/bin/activate

unset VLLM_SLEEP_WHEN_IDLE
unset VLLM_USE_DEEP_GEMM
unset VLLM_USE_FLASHINFER_MOE_FP16
unset VLLM_USE_FLASHINFER_SAMPLER
unset OMP_NUM_THREADS

VLLM_USE_MODELSCOPE=true vllm serve /data/models/Qwen3.6-35B-A3B-AWQ \
 --host 0.0.0.0 \
 --port 8000 \
 --served-model-name Qwen3.6-35B-A3B-AWQ \
 --max-num-seqs 8 \
 --max-model-len 8192 \
 --gpu-memory-utilization 0.85

耐心等待后测试一下: curl http://127.0.0.1:8000/v1/models

cq@cqai:~$ curl http://127.0.0.1:8000/v1/models
{“object”:“list”,“data”:[{“id”:“Qwen3.6-35B-A3B-AWQ”,“object”:“model”,“created”:1778643784,“owned_by”:“vllm”,“root”:“/data/models/Qwen3.6-35B-A3B-AWQ”,“parent”:null,“max_model_len”:8192,“permission”:[{“id”:“modelperm-becf5824c110063a”,“object”:“model_permission”,“created”:1778643784,“allow_create_engine”:false,“allow_sampling”:true,“allow_logprobs”:true,“allow_search_indices”:false,“allow_view”:true,“allow_fine_tuning”:false,“organization”:“*”,“group”:null,“is_blocking”:false}]}]}
cq@cqai:~$

vLLM 已经正式启动成功。

这条返回就是铁证:

{"object":"list","data":[{"id":"Qwen3.6-35B-A3B-AWQ", ... }]}

这说明:

  • API 服务已经监听在 8000

  • OpenAI 兼容接口可用

  • 模型 Qwen3.6-35B-A3B-AWQ 已成功注册

  • 这台 4090 49GB 已经把这套 vLLM + AWQ 35B-A3B 跑起来了

现在的状态总结

已完成

  • vLLM 安装成功

  • ModelScope 模型下载成功

  • AWQ 量化版下载成功

  • Qwen3.6-35B-A3B-AWQ 已成功启动

  • /v1/models 已验证通过