Skip to content

async scheduling for decoding

Latest
Compare
Choose a tag to compare
@noooop noooop released this 08 Nov 10:04

非常dirty的实现自回归模型(chat models)异步调度

7b-fp8
3b-bf16

两倍的延迟实现10%的峰值吞吐提高
效果有点令人扣头

会在 https://github.com/noooop/wde 库进行进一步优化代码,希望能有性能的进一步提升

祝好
light-vllm v0.3.0