update vllm-docker-quick-start for vllm0.6.2 #12392

ACupofAir · 2024-11-13T07:23:01Z

Description

change example code for starting vllm serving, add --distributed-executor-backend ray parameter

liu-shaojun

LGTM

gc-fu

LGTM

gc-fu · 2024-11-14T02:17:07Z

docs/mddocs/DockerGuides/vllm_docker_quickstart.md

-  --max-model-len 4096 \
-  --max-num-batched-tokens 10240 \
+  --max-model-len 2048 \
+  --max-num-batched-tokens 4000 \
  --max-num-seqs 12 \


We can probably also get rid of this max-num-seqs

docs/mddocs/DockerGuides/vllm_docker_quickstart.md

update vllm-docker-quick-start for vllm0.6.2

f89e1dc

liu-shaojun requested a review from gc-fu November 14, 2024 02:15

liu-shaojun approved these changes Nov 14, 2024

View reviewed changes

gc-fu approved these changes Nov 14, 2024

View reviewed changes

[UPDATE] rm max-num-seqs parameter in vllm-serving script

e48c5bf

glorysdj merged commit cb7b089 into intel-analytics:main Nov 27, 2024