vLLM本地部署和Dify中大模型的调用教程

一、前置准备

在 Ubuntu 上安装 Conda 环境可以通过安装Miniconda 来完成。以下是详细的步骤：

二、安装 Miniconda

2.1 下载 Miniconda 安装脚本

使用 wget 或 curl 下载 Miniconda 安装脚本：
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
或：
curl -O https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

2.2 安装 Miniconda

给予安装脚本执行权限：
chmod +x Miniconda3-latest-Linux-x86_64.sh
运行安装脚本：
bash Miniconda3-latest-Linux-x86_64.sh
按提示操作，阅读并接受许可协议，选择安装路径（默认即可），并决定是否将 Conda 的 bin 目录添加到环境变量中。

2.3 初始化 Conda

安装完成后，运行以下命令初始化 Conda：
conda init
重新打开终端，以使更改生效。

2.4 验证安装

输入以下命令检查 Conda 版本：
conda --version
如果显示版本号，则安装成功。

三、创建和管理 Conda 环境

3.1 创建新的 Conda 环境

使用以下命令创建一个新的 Conda 环境，并指定 Python 版本：
conda create -n myenv python=3.8
其中 myenv 是环境名称，python=3.8 指定了 Python 版本。

3.2 激活环境

激活已创建的环境：
conda activate myenv

3.3 列出所有环境

查看所有已创建的 Conda 环境：
conda env list

3.4 删除环境

删除不需要的 Conda 环境：
conda remove -n myenv --all

3.5 在环境中安装包

在激活的环境中，使用以下命令安装包：
conda install numpy

四、VLLM部署

4.1 创建conda环境

conda create -n vllm python=3.10

4.2 安装vLLM

pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

4.3、下载modelscope

modelscope是模型管理工具，用来管理模型的下载、上传、版本管理等。

pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

4.4、模型下载

modelscope download --model Qwen/Qwen3-8B --local_dir /home/hoyooai/models

4.5、启动服务

vllm serve models/Qwen3-8B --port 8000 --host 0.0.0.0 --dtype=half --gpu_memory_utilization 0.5

host: 0.0.0.0 允许外部访问
dtype: half 使用半精度浮点数，如果你使用的是N卡30系及以上，可以使用dtype=float16
gpu_memory_utilization: 0.5 使用GPU的50%的显存

4.6、获取服务地址

在wsl中运行如下命令：

ifconfig# 如果提示未安装sudo apt-get install net-tools # 安装net-tools

获取得到的宿主机ip地址为172.16.10.35。

4.7、通过api访问服务

4.7.1、构建api请求

curl -X POST 'http://172.16.10.35:8000/v1/chat/completions' \--header 'Content-Type: application/json' \--data-raw '{ "model": "models/Qwen3-8B", "messages":[ {"role":"system","content":"you are hoyooai"}, {"role":"user","content":"你好"} ]}'

4.7.2、下载postman

postman是一款api测试工具，可以用来测试api接口。

下载地址：https://www.postman.com/downloads/

4.7.3、导入api请求

将上述api请求import。

请求方式为POST，请求头中Content-Type为application/json，请求体为：

{  "model": "models/Qwen3-1.7B",  "messages":[    {"role":"system","content":"you are eogee"},    {"role":"user","content":"你好"}  ]}

点击send，如提示wsl命令行中提示未安装GCC编译器

可以执行如下命令：

conda install gcc_linux-64 gxx_linux-64

五、Dify中访问服务

在Dify中，选择OpenAI-API-compatible作为模型提供商

添加模型，在模型名称中输入models/Qwen3-1.7B

在API endpoint URL中输入http://172.21.56.14:8000/v1

点击添加，完成模型添加。

#部署实操 #技术交流

#qwen3 #vllm

vLLM本地部署和Dify中大模型的调用教程

http://localhost:8090/archives/vllmben-di-bu-shu-qwen3bing-zai-difyzhong-diao-yong

作者

Administrator

发布于

2025年05月06日

更新于

2025年05月19日

许可协议

npx 的详细说明上一篇

深入理解与应用AI大模型的MCP服务：从原理到实践下一篇