vllm-project · bong-furiosa · Jun 11, 2024 · Jun 13, 2024 · Jun 14, 2024 · Jun 14, 2024
diff --git a/vllm/worker/model_runner.py b/vllm/worker/model_runner.py
@@ -395,9 +395,15 @@ def _prepare_model_input(
                             block_table = block_table[
                                 -curr_sliding_window_blocks:]
                         if self.attn_backend.get_name() == "flashinfer":
-                            paged_kv_indices.extend(block_table)
+                            # flashinfer wrong indexing bug fix
+                            block_table_bound = seq_data.get_len(
+                            ) // self.block_size + 1 if seq_data.get_len(
+                            ) % self.block_size != 0 else seq_data.get_len(
+                            ) // self.block_size
+                            paged_kv_indices.extend(
+                                block_table[:block_table_bound])
                             paged_kv_indptr.append(paged_kv_indptr[-1] +
-                                                   len(block_table))
+                                                   block_table_bound)
                             last_page_len = seq_data.get_len(
                             ) % self.block_size
                             if last_page_len == 0: