[Core] latency optimization (vllm-project#3890)

z103cb · Apr 11, 2024 · 9d9b6c4 · 9d9b6c4
1 parent d0bc197
commit 9d9b6c4
Showing 1 changed file with 1 addition and 1 deletion.
diff --git a/vllm/core/block_manager_v1.py b/vllm/core/block_manager_v1.py
@@ -328,7 +328,7 @@ def _is_last_block_full(
         self,
         seq: Sequence,
     ) -> bool:
-        token_ids_len = len(seq.data.get_token_ids())
+        token_ids_len = seq.data.get_len()
         return token_ids_len > 0 and token_ids_len % seq.block_size == 0
 
     def _maybe_promote_last_block(