Paddle Serving 部署 PaddleOCR TRT 没加速效果 #5322

halleywj · 2022-01-22T06:45:22Z

hello

而我这边测试在多并发的 client 调用下 https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.4/deploy/pdserving/config.yml 开启 trt（use_trt: True）速度基本也没很大变化，基本接近文档的 T4 qps 20+ （https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.4/deploy/pdserving/README_CN.md）。
无论开不开 trt ， precision 设置成 fp32 还是 fp16 还是 int8 ，基本速度都没差别。
我都不确定是否实现是对的。
GPU 使用率都能达到 80-90 及以上。
用的模型都是 2.4 默认模型， PP-OCRv2 。 Python Pipeline Serving 、 http 接口。
简易测速脚本参考 #5360

我参考 https://github.com/PaddlePaddle/Serving/blob/v0.7.0/doc/Python_Pipeline/Pipeline_Design_CN.md#2%E8%AF%A6%E7%BB%86%E8%AE%BE%E8%AE%A1 开启了 batch_size 和 auto_batching_timeout ，看起来是生效的，但感受上更慢了，并且会因为图片大小不一样挂掉。
所以是否要先 preprocess 把图片 resize 成一样，或者 padding 成一样。（我之后可以实验一下这样是否会有效果）。

所以这里我想问一下：

关于开 trt 速度基本不变，是正常的吗？是否和 batch size 1 有关系，还是可能有别的原因。
除了 https://github.com/PaddlePaddle/Serving/blob/v0.7.0/doc/Python_Pipeline/Performance_Tuning_CN.md 这里的 1.5（我大致试了一下了，都没看到加速，减少并发度是会减速的）还能怎样加快推理速度？环境是 T4 。
用 ch_PP-OCRv2_rec_slim + ch_PP-OCRv2_det_slim 这套模型在 T4 + TRT 会更快吗？还是说和 PP-OCRv2 应该差不多？

具体环境：
cuda11.2-cudnn8-TensorRT8 ， paddlepaddle 、 paddle-serving 均是该版本。
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.4/deploy/pdserving/config.yml#L22 use_profile 也关掉了。

感谢。

halleywj · 2022-01-24T03:45:22Z

我看到一些相关的 issue：

@TeslaZhao @LDOUBLEV 希望帮忙看一下，谢谢。

tink2123 · 2022-01-27T08:56:53Z

您好～ Serving 的 pipeling 部署目前还不支持TensorRT加速，相关同学还在开发，可以关注下后续版本。

halleywj · 2022-01-28T11:10:12Z

好的，多谢。

zlszhonglongshen · 2022-06-20T02:33:38Z

还有人继续测试嘛？现在速度有提升嘛

paddle-bot-old bot assigned MissPenguin Jan 22, 2022

halleywj changed the title ~~Paddle Serving 部署 PaddleOCR 如何打 batch~~ Paddle Serving 部署 PaddleOCR TRT 没加速效果 Jan 22, 2022

halleywj closed this as completed May 31, 2022

paddle-bot-old bot added the status/close label May 31, 2022

Provide feedback