推理服务化快速上手#
我们提供了一套基于动态图推理的简单易用 UI 服务化部署方法,用户可以快速部署服务化推理。
请确保,在部署前请确保已正确安装 PaddeNLP,clone 本 repo 下位置代码。以及自定义算子库。本部署的服务是兼容 OpenAI API 接口
Clone PaddleNLP 到本地
git clone https://github.com/PaddlePaddle/PaddleNLP.git && cd PaddleNLP/llm # 如已clone或下载PaddleNLP可跳过
环境准备
python >= 3.9
gradio
flask
paddlenlp_ops (可选,高性能自定义加速算子, 安装参考 https://paddlenlp.readthedocs.io/zh/latest/llm/docs/predict/installation.html)
服务化部署,单卡脚本如下:
python ./predict/flask_server.py \
--model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \
--port 8010 \
--flask_port 8011 \
--dtype "float16"
用户也可以使用 paddle.distributed.launch 启动多卡推理。
其中参数如下:
port: Gradio UI 服务端口号,默认8010。
flask_port: Flask 服务端口号,默认8011。
其他参数请参见推理文档中推理参数配置。
使用模型#
图形化界面:
打开 http://127.0.0.1:8010 即可使用 gradio 图形化界面,即可开启对话。
API 访问:
您也可用通过 flask 服务化 API 的形式访问服务:
1. 您可以直接使用 curl, 开始对话
curl 127.0.0.1:8011/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{"message": [{"role": "user", "content": "你好"}]}'
2. 可以使用 OpenAI 客户端调用:
from openai import OpenAI
client = OpenAI(
api_key="EMPTY",
base_url="http://localhost:8011/v1/",
)
# Completion API
stream = True
completion = client.chat.completions.create(
model="default",
messages=[
{"role": "user", "content": "PaddleNLP好厉害!这句话的感情色彩是?"}
],
max_tokens=1024,
stream=stream,
)
if stream:
for c in completion:
print(c.choices[0].delta.content, end="")
else:
print(completion.choices[0].message.content)
3. 还可以参考:./predict/request_flask_server.py
文件使用脚本调用。
# 在 PaddleNLP/llm 目录下
python predict/request_flask_server.py