trtllm-serve does not support dynamic batching like tritonserver #2549

Alireza3242 · 2024-12-07T07:35:58Z

I want to have a openai compatible api. But i also need the advantages of tritonserver like dynamic batching. I think if you develop a code which uses tritonserver (tensorrt-backend) to deliver openai-api is better.

njaramish · 2024-12-07T18:54:14Z

Looks like this is supported in Triton, although I have not tried it myself: triton-inference-server/server#7561

There's also an open source project that fills this need (also have not tried it myself): https://github.com/npuichigo/openai_trtllm

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

trtllm-serve does not support dynamic batching like tritonserver #2549

trtllm-serve does not support dynamic batching like tritonserver #2549

Alireza3242 commented Dec 7, 2024

njaramish commented Dec 7, 2024

trtllm-serve does not support dynamic batching like tritonserver #2549

trtllm-serve does not support dynamic batching like tritonserver #2549

Comments

Alireza3242 commented Dec 7, 2024

njaramish commented Dec 7, 2024