当前位置:首页 » 《随便一记》 » 正文

vllm+qwen2部署!

10 人参与  2024年10月03日 15:21  分类 : 《随便一记》  评论

点击全文阅读


 准备好qwen2模型:去huggingface镜像、魔搭 都可下载:
HF-Mirror、魔搭社区


创建conda环境:
conda create -n name python==3.10  (python环境一定要3.10 后面有用!


激活环境:
conda activate name


替换镜像源:
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple


安装所需依赖:

pip install modelscope==1.11.0
pip install openai==1.17.1

pip/pip3 install torch torchvision torchaudiopip install tqdm==4.64.1pip install transformers==4.39.3

安装flash-attn依赖包的时候有坑!
需要先安装nijia这个包:

pip install ninja 
检查ninja是否安装成功:

echo $?

返回0代表安装成功!

此时再次安装flash-attn:

MAX_JOBS=8 pip install flash-attn --no-build-isolation

还是报错,加上代理再次安装!

pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.5.2/flash_attn-2.5.2+cu122torch2.2cxx11abiFALSE-cp310-cp310-linux_x86_64.whl
如果超时 可以设置参数 --timeout=250(具体多少根据实际情况定) 
 

参考:安装flash-attention失败的终极解决方案_building wheels for collected packages: flash-attn-CSDN博客

安装成功!



pip install vllm

启动openai风格接口:
python -m vllm.entrypoints.openai.api_server --model /dfs/data/autodl-tmp/qwen/Qwen2-7B-Instruct  --served-model-name Qwen2-7B-Instruct --max-model-len=2048

--dtype=half (我当前显卡为esla V100-PCIE-32GB GPU具有计算能力7.0,不够8.0,所以需要设置半精度,使用float16(half precision)而非Bfloat16进行计算,这样可以降低算力要求)


若想启动多Gpu再设置以下两个参数:
CUDA_VISIBLE_DEVICES=0,1,2,3

并行计算参数:
--tensor-parallel-size=2(张量并行参数设置)
--pipeline-parallel-size=4(管道并行参数设置)

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/qwen/Qwen2-7B-Instruct --served-model-name Qwen2-7B-Instruct --max-model-len=2048

成功启动服务!


点击全文阅读


本文链接:http://zhangshiyu.com/post/167409.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1