[V1]Enable APC by default only for text models (vllm-project#10148)

Signed-off-by: Roger Wang <[email protected]> Signed-off-by: Loc Huynh <[email protected]>
JC1DA · Nov 11, 2024 · 81aaaf9 · 81aaaf9
1 parent 456b16e
commit 81aaaf9
Showing 1 changed file with 4 additions and 1 deletion.
diff --git a/vllm/v1/engine/llm_engine.py b/vllm/v1/engine/llm_engine.py
@@ -65,7 +65,10 @@ def __init__(
         elif usage_context == UsageContext.OPENAI_API_SERVER:
             scheduler_config.max_num_seqs = 1024
             scheduler_config.max_num_batched_tokens = 2048
-        cache_config.enable_prefix_caching = True
+
+        # TODO (ywang96): Enable APC by default when VLM supports it.
+        if not model_config.is_multimodal_model:
+            cache_config.enable_prefix_caching = True
 
         logger.info(
             "Initializing an LLM engine (v%s) with config: "