openvinotoolkit · alexsu52 · May 2, 2024 · Apr 9, 2024 · Apr 12, 2024 · Apr 16, 2024
@@ -326,6 +326,15 @@
         "backends": [BackendType.OV],
         "is_batch_size_supported": False,
     },
+    {
+        "reported_name": "tinyllama_int8_data_free",
+        "model_id": "tinyllama/tinyllama-1.1b-step-50k-105b",
+        "pipeline_cls": LMWeightCompression,
+        "compression_params": {
+            "mode": CompressWeightsMode.INT8_ASYM,
+        },
+        "backends": [BackendType.TORCH],
+    },
 ]
 
 

@@ -18,9 +18,11 @@
 
 import numpy as np
 import openvino as ov
+import torch
 from datasets import load_dataset
 from memory_profiler import memory_usage
 from optimum.intel.openvino import OVModelForCausalLM
+from transformers import AutoModelForCausalLM
 from transformers import AutoTokenizer
 from whowhatbench import Evaluator
 
@@ -224,7 +226,11 @@ def _validate(self):
             )
 
         compressed_model_hf = self.model_hf
-        if self.backend != BackendType.FP32:
+        if self.backend == BackendType.TORCH:
+            compressed_model_hf = AutoModelForCausalLM.from_pretrained(
+                self.output_model_dir, torch_dtype=torch.float16, device_map="cpu"
+            )
+        elif self.backend != BackendType.FP32:
             compressed_model_hf = OVModelForCausalLM.from_pretrained(
                 self.output_model_dir, trust_remote_code=True, load_in_8bit=False, compile=False, stateful=is_stateful
             )