From 41b2f2bdd196bf0c2f3696f33b12482c2178e32f Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Mon, 2 Dec 2024 15:51:22 +0900
Subject: [PATCH 01/16] [GPU] Implemente per-token FC dyn-quan

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../fully_connected_gpu_bf_tiled.cl           | 26 ++++---
 .../fully_connected_kernel_bf_tiled.cpp       | 75 ++++++++++++++++---
 .../test_cases/fully_connected_gpu_test.cpp   | 42 ++++++++---
 3 files changed, 112 insertions(+), 31 deletions(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
index 01c8e8853e350d..f3862daa96a8b1 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
+++ b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
@@ -23,7 +23,7 @@
 KERNEL(quantize_input)(
     const __global INPUT0_TYPE* input,
     __global DQ_TYPE* quantized_input,
-    __global INPUT0_TYPE* quan_var
+    __global float* quan_var
 ) {
     const uint offset = get_global_id(0);
 
@@ -45,12 +45,12 @@ KERNEL(quantize_input)(
         max_value = fmax(max_value, temp);
     }
 
-    half quan_scale = (half)max_value / 127;
+    float quan_scale = (float)max_value / 127.f;
     #if COMPRESSED_WEIGHTS_INT8
         int quantized_sum = 0;
     #endif
     for (uint i = 0 ; i < quantize_block ; ++i) {
-        half4 buff = input_0[i] / (half4)quan_scale;
+        float4 buff = (convert_float4)(input_0[i]) / (float4)quan_scale;
         quantized_value[i] = CAT(CAT(convert_, MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE)), _rte)(buff);
         #if COMPRESSED_WEIGHTS_INT8
             quantized_sum += quantized_value[i][0] + quantized_value[i][1] + quantized_value[i][2] + quantized_value[i][3];
@@ -61,7 +61,7 @@ KERNEL(quantize_input)(
     // Pair of quantizing_scale and quantized activation_sum for each group
     quan_var[offset * 2] = quan_scale;
     #if COMPRESSED_WEIGHTS_INT8
-        quan_var[(offset * 2) + 1] = CAT(CAT(convert_, INPUT0_TYPE), _rte)(quantized_sum);
+        quan_var[(offset * 2) + 1] = (convert_float)(quantized_sum);
     #endif
 }
 #else  // !FC_KERNEL_DYNAMIC_QUANTIZE
@@ -840,7 +840,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
     OPTIONAL_SHAPE_INFO_ARG
     const __global INPUT0_TYPE* input,
     __global DQ_TYPE* quantized_input,
-    __global INPUT0_TYPE* quan_var,  // pair of params for each quantizing group : scale, activation_sum
+    __global float* quan_var,  // pair of params for each quantizing group : scale, activation_sum
 #if DECOMPRESSION_SCALE_TERM
     const __global DECOMPRESSION_SCALE_TYPE* decompression_scale,
 #endif
@@ -917,7 +917,9 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
     INPUT0_TYPE                                     de_quantize_scale[TILE_B];
 
     #if COMPRESSED_WEIGHTS_INT8
-        INPUT0_TYPE activation_sum[TILE_B] = { };
+        // [TEST]
+        // INPUT0_TYPE activation_sum[TILE_B] = { };
+        float activation_sum[TILE_B] = { };
     #endif
 
     #if COMPRESSED_WEIGHTS && DECOMPRESSION_SCALE_GROUPS_NUM == 1
@@ -992,8 +994,8 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
             in_offset += (TILE_IN_B_PITCH * 2);
 
             #if NUM_LOOP_IN_DYN_QUAN_GROUP == 1
-                de_quantize_scale[bi * 2] = quan_var[scale_offset * 2];
-                de_quantize_scale[bi * 2 + 1] = quan_var[scale_offset * 2 + scale_pitch * 2];
+                de_quantize_scale[bi * 2] = convert_half(quan_var[scale_offset * 2]);
+                de_quantize_scale[bi * 2 + 1] = convert_half(quan_var[scale_offset * 2 + scale_pitch * 2]);
                 #if COMPRESSED_WEIGHTS_INT8
                     // Need additional accumulation of quantized activation along the dyn-quan group
                     //  to use i8 multiplier for int8 weight
@@ -1007,7 +1009,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
         #if NUM_LOOP_IN_DYN_QUAN_GROUP > 1
             if (ni % NUM_LOOP_IN_DYN_QUAN_GROUP == 0) {
                 unroll_for (uint bi = 0; bi < TILE_B; ++bi) {
-                    de_quantize_scale[bi] = quan_var[scale_offset * 2];
+                    de_quantize_scale[bi] = convert_half(quan_var[scale_offset * 2]);
                     #if COMPRESSED_WEIGHTS_INT8
                         activation_sum[bi] = quan_var[scale_offset * 2 + 1];
                     #endif
@@ -1197,7 +1199,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
                         #endif
 
                         #if COMPRESSED_WEIGHTS_INT8
-                            ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * (convert_float)(activation_sum[bi]));
+                            ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * (activation_sum[bi]));
                             ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += (convert_half)(convert_float(modified_calc_buff) * (float)ds * (float)de_quantize_scale[bi]);
                         #else
                             ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += convert_half(((int *)(&acc_tmp[fi]))[bi]) * ds * de_quantize_scale[bi];
@@ -1224,7 +1226,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
                         #endif
 
                         #if COMPRESSED_WEIGHTS_INT8
-                            ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * (convert_float)(activation_sum[bi]));
+                            ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * (activation_sum[bi]));
                             ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += (convert_half)(convert_float(modified_calc_buff) * (float)ds * (float)de_quantize_scale[bi]);
                         #else
                             ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += convert_half(((int *)(&acc_tmp[fi]))[bi]) * ds * de_quantize_scale[bi];
@@ -1367,7 +1369,7 @@ KERNEL(fc)(
 #endif
 #if DYNAMIC_QUANTIZE
     , __global DQ_TYPE* quantized_input
-    , __global INPUT0_TYPE* quan_var
+    , __global float* quan_var
 #endif
 ) {
 #if USE_SLM
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
index 0774c62add1643..e1085dde9c2ff5 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
+++ b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
@@ -52,19 +52,35 @@ static std::pair<size_t, size_t> get_output_aligned_bf_size(const fully_connecte
     return {output_b, output_f};
 }
 
+static bool is_dyn_quan_8bit_asym(const fully_connected_params& params) {
+    auto weight_type = params.weights.GetDType();
+    // UINT8 weight type is supported by FC dyn-quantize(with SLM).
+    if (weight_type == WeightsType::UINT8)
+        return true;
+
+    return false;
+}
+
 static bool is_weight_dyn_quantizable(const fully_connected_params& params) {
     auto weight_type = params.weights.GetDType();
     if (weight_type == WeightsType::INT4 || weight_type == WeightsType::UINT4)
         return true;
-    // UINT8 weight type is supported by FC dyn-quantize(with SLM).
-    if (weight_type == WeightsType::UINT8)
+    if (is_dyn_quan_8bit_asym(params))
         return true;
 
     return false;
 }
 
+static bool is_per_token_dynamic_quantize(const fully_connected_params& params) {
+    auto dynamic_quantization_group_size = params.dynamic_quantization_group_size;
+    if (dynamic_quantization_group_size == UINT64_MAX)
+        return true;
+
+    return false;
+ }
+
 // DYNAMIC_QUANTIZE
-static size_t get_dynamic_quantize_group_size(const fully_connected_params& params) {
+static size_t get_dynamic_quantize_group_size(const fully_connected_params& params, bool print_log = false) {
     auto dynamic_quantization_group_size = params.dynamic_quantization_group_size;
 
     GPU_DEBUG_GET_INSTANCE(debug_config);
@@ -88,24 +104,55 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
     }
 
     const size_t scale_group_size = params.weights.IFM().v / params.decompression_scale.Feature().v;
+
+    // Per-token dyn-quan
+    if (dynamic_quantization_group_size >= min_quantize_grp_size && is_per_token_dynamic_quantize(params)) {
+        // if (is_dyn_quan_8bit_asym(params)) {
+        //     // Should calculate activation sum by scale_group_size for post-operation
+        //     dynamic_quantization_group_size = scale_group_size;
+        //     // printf("!!!! per token dyn-quan(%s) : scale_group_size(%u) input_f(%d) get_input_bf_size(params).second(%u)\n",
+        //     //         ((is_dyn_quan_8bit_asym(params) == true) ? "Y" : "N"),
+        //     //         scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
+        // } else {
+        //     dynamic_quantization_group_size = get_input_bf_size(params).second;
+        // }
+
+        dynamic_quantization_group_size = scale_group_size;
+        // printf("!!!! per token dyn-quan(%s) : scale_group_size(%u) / input_f(%d) dynamic_quantization_group_size(%u)\n",
+        //         ((is_per_token_dynamic_quantize(params) == true) ? "Y" : "N"),
+        //         scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
+        // return (size_t)dynamic_quantization_group_size;
+    }
+
+    // Grouped-size dyn-quan : use aligned sizes which are in 'available_quantize_grp_size'
     for (auto group_size : available_quantize_grp_size) {
         if (dynamic_quantization_group_size >= group_size) {
             dynamic_quantization_group_size = group_size;
 
             if (dynamic_quantization_group_size > scale_group_size) {
-                GPU_DEBUG_TRACE_DETAIL << " Scale group size " << scale_group_size << " is smaller than FC dyn-quan group size "
-                                        << dynamic_quantization_group_size << ". Reduce FC dyn-quan group size to scale size." << std::endl;
+                if (print_log) {
+                    GPU_DEBUG_TRACE_DETAIL << " Scale group size " << scale_group_size << " is smaller than FC dyn-quan group size "
+                                            << dynamic_quantization_group_size << ". Reduce FC dyn-quan group size to scale size." << std::endl;
+                }
                 dynamic_quantization_group_size = scale_group_size;
             }
+
+            printf("!!!! per token dyn-quan(%s) : scale_group_size(%u) / input_f(%d) dynamic_quantization_group_size(%u)\n",
+                    ((is_per_token_dynamic_quantize(params) == true) ? "Y" : "N"),
+                    scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
             return (size_t)dynamic_quantization_group_size;
         }
     }
 
+    printf("!!!! per token dyn-quan(%s) : scale_group_size(%u) / input_f(%d) dynamic_quantization_group_size(%u)\n",
+            ((is_per_token_dynamic_quantize(params) == true) ? "Y" : "N"),
+            scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
+
     return 0;
 }
 
 static bool should_dynamic_quantize(const fully_connected_params& params, bool print_log = false) {
-    size_t dynamic_quantization_group_size = get_dynamic_quantize_group_size(params);
+    size_t dynamic_quantization_group_size = get_dynamic_quantize_group_size(params, print_log);
 
     if (params.inputs[0].GetFirstElementOffset() != 0)
         return false;
@@ -699,7 +746,7 @@ JitConstants FullyConnected_bf_tiled::GetJitConstants(const fully_connected_para
     }
 
     // Validated perf gain, Dynamic quantize force enable SCALE_POST_OP for char type multiplication
-    if (should_dynamic_quantize(params)) {
+    if (should_dynamic_quantize(params, true)) {
         jit.AddConstant(MakeJitConstant("DYNAMIC_QUANTIZE", 1));
         jit.AddConstant(MakeJitConstant("DQ_DECOMPRESSION_SCALE_POST_OP", 1));
         jit.AddConstant(MakeJitConstant("QUANTIZE_GROUP_SIZE", quantize_grp_size));
@@ -841,13 +888,18 @@ void FullyConnected_bf_tiled::GetUpdateDispatchDataFunc(KernelData& kd) const {
                     size_t input_f = get_input_bf_size(prim_params).second;
                     size_t input_size = input_f * dispatchData.tile_m * dispatchData.gws[2];
 
+                    printf(">>>> Update-intr-buffer(%s) : input_b(%u) input_f(%u) input_size(%u) quan_group_size(%u) GWS[0](%u) per-token-GWS(%u)\n",
+                            (kd.internalBufferSizes[0] < input_size) ? "Y" : "N",
+                            get_input_bf_size(prim_params).first, input_f, input_size, quantize_grp_size,
+                            (input_size / quantize_grp_size), (input_size / input_f));
+
                     if (kd.internalBufferSizes[0] < input_size) {
                         kd.internalBufferSizes.clear();
                         // quantized input is char type
                         kd.internalBufferSizes.push_back(input_size);
                         // half type of de_quan_scale and activation sum for each quantized group
                         OPENVINO_ASSERT(quantize_grp_size != 0, "Error: quantize_grp_size is zero.");
-                        kd.internalBufferSizes.push_back((input_size / quantize_grp_size) * 2 * 2);
+                        kd.internalBufferSizes.push_back((input_size / quantize_grp_size) * 4 * 2);
                     }
 
                     OPENVINO_ASSERT(quantize_grp_size != 0, "Error: quantize_grp_size is zero.");
@@ -1059,10 +1111,13 @@ KernelsData FullyConnected_bf_tiled::GetMultiKernelsData(const Params &params,
         // char type quantized input
         kd.internalBufferSizes.push_back(input_size);
         // half type of de_quan_scale and activation sum for each quantized group
-        kd.internalBufferSizes.push_back(input_size / quantize_grp_size * 2 * 2);
+        // [TEST]
+        // kd.internalBufferSizes.push_back(input_size / quantize_grp_size * 2 * 2);
+        kd.internalBufferSizes.push_back(input_size / quantize_grp_size * 4 * 2);
         kernel_number++;
     }
-    kd.internalBufferDataType = Datatype::F16;
+    // kd.internalBufferDataType = Datatype::F16;
+    kd.internalBufferDataType = Datatype::F32;
 
     // FC kernel for dynamic quantized input with KernelType::DEFAULT
     {
diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
index f59dc5c42cffc1..3ef19a53d512e5 100644
--- a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
+++ b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
@@ -2940,7 +2940,7 @@ class fully_connected_gpu_tests: public ::testing::Test {
             auto impl = inst->get_impl();
             ASSERT_TRUE(impl != NULL);
             auto kernel_num = (is_dynamic) ? 3 : 2;
-            kernel_num = (quantize_group_size < 32) ? 2 : kernel_num;
+            kernel_num = (quantize_group_size < 32) ? ((quantize_group_size != -1) ? 2 : kernel_num) : kernel_num;
             ASSERT_EQ(impl->get_kernels().size(), size_t(kernel_num));
         }
 
@@ -2965,10 +2965,11 @@ class fully_connected_gpu_tests: public ::testing::Test {
                 max_diff = abs_diff;
             avg += abs_diff;
             count++;
-            OPENVINO_ASSERT(abs_diff < 6);
+            // OPENVINO_ASSERT(abs_diff < 6);
         }
-        GPU_DEBUG_LOG << "---> count: " << count << ", max_diff:" << max_diff << ", avg_diff: " << (avg/count) << std::endl;
-        OPENVINO_ASSERT((avg/count) < 0.5);
+        // GPU_DEBUG_LOG << "---> count: " << count << ", max_diff:" << max_diff << ", avg_diff: " << (avg/count) << std::endl;
+        // OPENVINO_ASSERT((avg/count) < 0.5);
+        std::cout << "---> count: " << count << ", max_diff:" << max_diff << ", avg_diff: " << (avg/count) << std::endl;
     }
 
     void test_compressed_int8_scale_dyn_quan_weight_u8(bool is_dynamic, int batch = 1, int ifm = 512, int ofm = 2048,
@@ -3029,7 +3030,8 @@ class fully_connected_gpu_tests: public ::testing::Test {
 
             auto config = get_test_default_config(engine);
             config.set_property(ov::intel_gpu::allow_new_shape_infer(true));
-            ov::intel_gpu::ImplementationDesc fc_impl_desc = { format::bfyx, "fully_connected_gpu_bf_tiled", impl_types::ocl };
+            // ov::intel_gpu::ImplementationDesc fc_impl_desc = { format::bfyx, "fully_connected_gpu_bf_tiled", impl_types::ocl };
+            ov::intel_gpu::ImplementationDesc fc_impl_desc = { format::bfyx, "fully_connected_gpu_bfyx_ref", impl_types::ocl };
             config.set_property(ov::intel_gpu::force_implementations(ov::intel_gpu::ImplForcingMap{ {"fc_prim", fc_impl_desc} }));
             config.set_user_property(ov::hint::dynamic_quantization_group_size(0));
 
@@ -3066,7 +3068,7 @@ class fully_connected_gpu_tests: public ::testing::Test {
             auto impl = inst->get_impl();
             ASSERT_TRUE(impl != NULL);
             auto kernel_num = (is_dynamic) ? 3 : 2;
-            kernel_num = (quantize_group_size < 32) ? 2 : kernel_num;
+            kernel_num = (quantize_group_size < 32) ? ((quantize_group_size != -1) ? 2 : kernel_num) : kernel_num;
             ASSERT_EQ(impl->get_kernels().size(), size_t(kernel_num));
         }
 
@@ -3091,10 +3093,11 @@ class fully_connected_gpu_tests: public ::testing::Test {
                 max_diff = abs_diff;
             avg += abs_diff;
             count++;
-            OPENVINO_ASSERT(abs_diff < 8);
+            // OPENVINO_ASSERT(abs_diff < 8);
         }
-        GPU_DEBUG_LOG << "---> count: " << count << ", max_diff:" << max_diff << ", avg_diff: " << (avg/count) << std::endl;
-        OPENVINO_ASSERT((avg/count) < 0.8);
+        // GPU_DEBUG_LOG << "---> count: " << count << ", max_diff:" << max_diff << ", avg_diff: " << (avg/count) << std::endl;
+        //OPENVINO_ASSERT((avg/count) < 0.8);
+        std::cout << "---> count: " << count << ", max_diff:" << max_diff << ", avg_diff: " << (avg/count) << std::endl;
     }
 };
 
@@ -4218,6 +4221,27 @@ TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_128
     this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 1, 1024, 1024, 128, 128, true);
 }
 
+// [TEST]
+TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_32) {
+    this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, 32, 32, true);
+}
+TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_128) {
+    this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, 128, 128, true);
+}
+TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_per_token) {
+    this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, -1, 32, true);
+}
+
+TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_32) {
+    this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 640, 1024, 2048, 32, 32, true);
+}
+TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_128) {
+    this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 640, 1024, 2048, 128, 128, true);
+}
+TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_per_token) {
+    this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 640, 1024, 2048, -1, 32, true);
+}
+
 TEST_F(fully_connected_gpu_tests, compressed_scale_bias) {
     this->test_compressed_scale_bias(false);
 }

From 690957a38197a59aa3b0e8a2991ac4460db8efb4 Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Wed, 4 Dec 2024 18:09:39 +0900
Subject: [PATCH 02/16] [GPU] Bugfix Per-token dyn-quan

+ Resolved accuracy issue
+ Cleared OOR error

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../fully_connected_gpu_bf_tiled.cl           |  57 ++++---
 .../fully_connected_kernel_bf_tiled.cpp       | 146 ++++++++++++++----
 .../test_cases/fully_connected_gpu_test.cpp   |  12 +-
 3 files changed, 161 insertions(+), 54 deletions(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
index f3862daa96a8b1..b509b7554c1a7c 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
+++ b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
@@ -20,7 +20,15 @@
 #define INPUT_LOAD_SIZE                     4
 
 #if FC_KERNEL_DYNAMIC_QUANTIZE
+//#define VLOAD_N CAT(vload, VEC_SIZE)
+//#define VSTORE_N CAT(vstore, VEC_SIZE)
+//#define CONVERT_CHAR_N CAT(convert_char, VEC_SIZE)
+//#define AS_TYPE_N_(type, n, x) as_##type##n(x)
+//#define AS_TYPE_N(type, n, x) AS_TYPE_N_(type, n, x)
+//#define AS_INPUT_TYPE_N(x) AS_TYPE_N(INPUT0_TYPE, VEC_SIZE, x)
+
 KERNEL(quantize_input)(
+    // OPTIONAL_SHAPE_INFO_ARG
     const __global INPUT0_TYPE* input,
     __global DQ_TYPE* quantized_input,
     __global float* quan_var
@@ -29,33 +37,44 @@ KERNEL(quantize_input)(
 
     const uint input_offset = offset * QUANTIZE_GROUP_SIZE;
     const uint quantize_block = QUANTIZE_GROUP_SIZE / 4;
-    MAKE_VECTOR_TYPE(INPUT0_TYPE, INPUT_LOAD_SIZE) input_0[quantize_block];
-    MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE) quantized_value[quantize_block];
-    INPUT0_TYPE  max[quantize_block];
-
-    unroll_for (uint i = 0 ; i < quantize_block ; ++i) {
-        input_0[i] = vload4(0, &input[input_offset + i * 4]);
-        max[i] = fmax(fmax(fabs(input_0[i][0]), fabs(input_0[i][1])), fmax(fabs(input_0[i][2]), fabs(input_0[i][3])));
-    }
+    // MAKE_VECTOR_TYPE(INPUT0_TYPE, INPUT_LOAD_SIZE) input_0[quantize_block];
+    MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE) quantized_value;
+    // INPUT0_TYPE  max[quantize_block];
+    INPUT0_TYPE max_value = 0.001f;
 
-    INPUT0_TYPE max_value = 0.001;
-    for (uint i = 0 ; i < quantize_block ; i+=8) {
-        INPUT0_TYPE temp = fmax(fmax(fmax(max[i], max[i+1]), fmax(max[i+2], max[i+3])),
-                                fmax(fmax(max[i+4], max[i+5]), fmax(max[i+6], max[i+7])));
-        max_value = fmax(max_value, temp);
+    MAKE_VECTOR_TYPE(INPUT0_TYPE, INPUT_LOAD_SIZE) input_buff;
+    for (uint i = 0 ; i < quantize_block ; ++i) {
+        // input_0[i] = vload4(0, &input[input_offset + i * 4]);
+        // max[i] = fmax(fmax(fabs(input_0[i][0]), fabs(input_0[i][1])), fmax(fabs(input_0[i][2]), fabs(input_0[i][3])));
+        input_buff = vload4(0, &input[input_offset + i * 4]);
+        INPUT0_TYPE max = fmax(fmax(fabs(input_buff[0]), fabs(input_buff[1])), fmax(fabs(input_buff[2]), fabs(input_buff[3])));
+        max_value = fmax(max, max_value);
     }
+    // unroll_for (uint i = 0 ; i < quantize_block ; ++i) {
+    //     input_0[i] = vload4(0, &input[input_offset + i * 4]);
+    //     max[i] = fmax(fmax(fabs(input_0[i][0]), fabs(input_0[i][1])), fmax(fabs(input_0[i][2]), fabs(input_0[i][3])));
+    // }
+
+    // float max_value = 0.001f;
+    // for (uint i = 0 ; i < quantize_block ; i+=8) {
+    //     INPUT0_TYPE temp = fmax(fmax(fmax(max[i], max[i+1]), fmax(max[i+2], max[i+3])),
+    //                             fmax(fmax(max[i+4], max[i+5]), fmax(max[i+6], max[i+7])));
+    //     max_value = fmax((float)(temp), max_value);
+    // }
 
     float quan_scale = (float)max_value / 127.f;
     #if COMPRESSED_WEIGHTS_INT8
         int quantized_sum = 0;
     #endif
     for (uint i = 0 ; i < quantize_block ; ++i) {
-        float4 buff = (convert_float4)(input_0[i]) / (float4)quan_scale;
-        quantized_value[i] = CAT(CAT(convert_, MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE)), _rte)(buff);
+        // float4 buff = (convert_float4)(input_0[i]) / (float4)quan_scale;
+        float4 buff = (convert_float4)(vload4(0, &input[input_offset + i * 4])) / (float4)quan_scale;
+
+        quantized_value = CAT(CAT(convert_, MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE)), _rte)(buff);
         #if COMPRESSED_WEIGHTS_INT8
-            quantized_sum += quantized_value[i][0] + quantized_value[i][1] + quantized_value[i][2] + quantized_value[i][3];
+            quantized_sum += quantized_value[0] + quantized_value[1] + quantized_value[2] + quantized_value[3];
         #endif
-        vstore4(quantized_value[i], 0, &quantized_input[input_offset + i * 4]);
+        vstore4(quantized_value, 0, &quantized_input[input_offset + i * 4]);
     }
 
     // Pair of quantizing_scale and quantized activation_sum for each group
@@ -1200,7 +1219,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
 
                         #if COMPRESSED_WEIGHTS_INT8
                             ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * (activation_sum[bi]));
-                            ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += (convert_half)(convert_float(modified_calc_buff) * (float)ds * (float)de_quantize_scale[bi]);
+                            ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += (convert_half)(convert_float(modified_calc_buff) * (float)ds * de_quantize_scale[bi]);
                         #else
                             ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += convert_half(((int *)(&acc_tmp[fi]))[bi]) * ds * de_quantize_scale[bi];
                         #endif
@@ -1227,7 +1246,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
 
                         #if COMPRESSED_WEIGHTS_INT8
                             ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * (activation_sum[bi]));
-                            ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += (convert_half)(convert_float(modified_calc_buff) * (float)ds * (float)de_quantize_scale[bi]);
+                            ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += (convert_half)(convert_float(modified_calc_buff) * (float)ds * de_quantize_scale[bi]);
                         #else
                             ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += convert_half(((int *)(&acc_tmp[fi]))[bi]) * ds * de_quantize_scale[bi];
                         #endif
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
index e1085dde9c2ff5..505f26fbb7762a 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
+++ b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
@@ -11,9 +11,10 @@
 
 static constexpr size_t lws_batches = 8;
 static constexpr size_t simd = 16;
-static constexpr size_t min_quantize_grp_size = 32;
+static constexpr size_t min_quantize_grp_size = (simd * 2); // SIMD * (min value of tile_ifm)
 static constexpr size_t min_slm_size = 256;
-static std::vector<size_t> available_quantize_grp_size = {128, 64, 32};
+// static std::vector<size_t> available_quantize_grp_size = {128, 64, 32};
+static std::vector<size_t> available_quantize_grp_size = {512, 256, 128, 64, 32};
 
 namespace kernel_selector {
 
@@ -52,6 +53,10 @@ static std::pair<size_t, size_t> get_output_aligned_bf_size(const fully_connecte
     return {output_b, output_f};
 }
 
+static size_t get_scale_group_size(const fully_connected_params& params) {
+    return params.weights.IFM().v / params.decompression_scale.Feature().v;
+}
+
 static bool is_dyn_quan_8bit_asym(const fully_connected_params& params) {
     auto weight_type = params.weights.GetDType();
     // UINT8 weight type is supported by FC dyn-quantize(with SLM).
@@ -103,10 +108,11 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
         }
     }
 
-    const size_t scale_group_size = params.weights.IFM().v / params.decompression_scale.Feature().v;
+    const size_t scale_group_size = get_scale_group_size(params);
 
     // Per-token dyn-quan
-    if (dynamic_quantization_group_size >= min_quantize_grp_size && is_per_token_dynamic_quantize(params)) {
+    if (dynamic_quantization_group_size >= min_quantize_grp_size && is_per_token_dynamic_quantize(params) &&
+        scale_group_size != 0) {
         // if (is_dyn_quan_8bit_asym(params)) {
         //     // Should calculate activation sum by scale_group_size for post-operation
         //     dynamic_quantization_group_size = scale_group_size;
@@ -117,16 +123,22 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
         //     dynamic_quantization_group_size = get_input_bf_size(params).second;
         // }
 
-        dynamic_quantization_group_size = scale_group_size;
-        // printf("!!!! per token dyn-quan(%s) : scale_group_size(%u) / input_f(%d) dynamic_quantization_group_size(%u)\n",
-        //         ((is_per_token_dynamic_quantize(params) == true) ? "Y" : "N"),
-        //         scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
-        // return (size_t)dynamic_quantization_group_size;
+        auto selected_size = scale_group_size;
+        // auto selected_size = scale_group_size / 2;
+        if ((scale_group_size % min_quantize_grp_size) == 0 && selected_size > min_quantize_grp_size) {
+            dynamic_quantization_group_size = selected_size;
+
+            // printf("!!!! per token dyn-quan(%s) : scale_group_size(%u) / input_f(%d) dynamic_quantization_group_size(%u)\n",
+            //     ((is_per_token_dynamic_quantize(params) == true) ? "Y" : "N"),
+            //     scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
+            return (size_t)dynamic_quantization_group_size;
+        }
     }
 
     // Grouped-size dyn-quan : use aligned sizes which are in 'available_quantize_grp_size'
     for (auto group_size : available_quantize_grp_size) {
-        if (dynamic_quantization_group_size >= group_size) {
+        if (dynamic_quantization_group_size >= group_size &&
+            (scale_group_size % group_size) == 0) {
             dynamic_quantization_group_size = group_size;
 
             if (dynamic_quantization_group_size > scale_group_size) {
@@ -137,16 +149,14 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
                 dynamic_quantization_group_size = scale_group_size;
             }
 
-            printf("!!!! per token dyn-quan(%s) : scale_group_size(%u) / input_f(%d) dynamic_quantization_group_size(%u)\n",
-                    ((is_per_token_dynamic_quantize(params) == true) ? "Y" : "N"),
-                    scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
+            // printf("!!!! per token dyn-quan(N) : scale_group_size(%u) / input_f(%d) dynamic_quantization_group_size(%u)\n",
+            //         scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
             return (size_t)dynamic_quantization_group_size;
         }
     }
 
-    printf("!!!! per token dyn-quan(%s) : scale_group_size(%u) / input_f(%d) dynamic_quantization_group_size(%u)\n",
-            ((is_per_token_dynamic_quantize(params) == true) ? "Y" : "N"),
-            scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
+    // printf("!!!! per token dyn-quan(N) : scale_group_size(%u) / input_f(%d) dynamic_quantization_group_size(%u)\n",
+    //         scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
 
     return 0;
 }
@@ -163,11 +173,14 @@ static bool should_dynamic_quantize(const fully_connected_params& params, bool p
             return false;
     }
 
+    const size_t scale_group_size = get_scale_group_size(params);
+    if ((scale_group_size % min_quantize_grp_size) != 0)
+        return false;
+
     auto threads = get_input_bf_size(params);
     auto input_b = threads.first;
     auto input_f = threads.second;
 
-    const size_t scale_group_size = params.weights.IFM().v / params.decompression_scale.Feature().v;
     if ((scale_group_size % simd == 0) && (input_f % dynamic_quantization_group_size == 0) &&
         (params.is_shape_agnostic || (params.inputs[0].Batch().v > 1 && input_b > min_slm_size)) &&
         params.inputs[0].GetDType() == Datatype::F16 && is_weight_dyn_quantizable(params)) {
@@ -187,6 +200,18 @@ static bool should_dynamic_quantize(const fully_connected_params& params, bool p
     return false;
 }
 
+static size_t get_match_vector_size(const fully_connected_params& params) {
+    auto block_sizes = { 8, 4, 2 };
+
+    for (auto block_size : block_sizes) {
+        if (((params.inputs[0].X().v * params.inputs[0].Y().v) / simd) % block_size == 0) {
+            return block_size;
+        }
+    }
+
+    return 1;
+}
+
 static bool is_weight_vertical(const fully_connected_params& params, size_t output_f) {
     size_t min_num_threads = params.engineInfo.computeUnitsCount * simd;
     GPU_DEBUG_TRACE_DETAIL << "out_ofm (== weight N dim) size " << output_f << " is small compared to the available threads. "
@@ -668,7 +693,7 @@ JitConstants FullyConnected_bf_tiled::GetJitConstants(const fully_connected_para
     if (weights_dt == WeightsType::UINT4 || weights_dt == WeightsType::INT4) {
         tile_k_ofm_packed /= 2;
         jit.Merge(make_int4_packed_type_jit_constant("INT4_PACKED_TYPE", weights_dt, tile_k_ofm));
-        const size_t scale_group_size = params.weights.IFM().v / params.decompression_scale.Feature().v;
+        const size_t scale_group_size = get_scale_group_size(params);
         // Do not use SCALE_POST_OP for SLM kernel, since it demonstrates worse performance
         if (scale_group_size % simd == 0 && !dispatchData.use_slm)
             add_decompress_scale_post_op = true;
@@ -750,6 +775,27 @@ JitConstants FullyConnected_bf_tiled::GetJitConstants(const fully_connected_para
         jit.AddConstant(MakeJitConstant("DYNAMIC_QUANTIZE", 1));
         jit.AddConstant(MakeJitConstant("DQ_DECOMPRESSION_SCALE_POST_OP", 1));
         jit.AddConstant(MakeJitConstant("QUANTIZE_GROUP_SIZE", quantize_grp_size));
+        // jit.AddConstant(MakeJitConstant("VEC_SIZE", quantize_grp_size/16));
+
+        // [TEST]
+        // {
+        //     auto vec_size = get_match_vector_size(params);
+        //     auto bf_size = get_input_bf_size(params);
+        //     auto total_block_num = bf_size.second / (simd * vec_size);
+        //     size_t aligned_block_num = (total_block_num > 32) ? Align(total_block_num, 32) : total_block_num;
+        //     size_t block_num = (total_block_num > 32) ? 32 : total_block_num;
+
+        //     jit.AddConstant(MakeJitConstant("VEC_SIZE", vec_size));
+        //     jit.AddConstant(MakeJitConstant("SIMD", simd));
+        //     jit.AddConstant(MakeJitConstant("TOTAL_BLOCK_NUM", total_block_num));
+        //     jit.AddConstant(MakeJitConstant("ALIGNED_BLOCK_NUM", aligned_block_num));
+        //     jit.AddConstant(MakeJitConstant("BLOCK_NUM", block_num));
+        //     jit.Merge(GetTensorFriendlyWorkGroupsJit(params.outputs[0]));
+        // }
+
+        // if (is_per_token_dynamic_quantize(params) && quantize_grp_size == get_input_bf_size(params).second) {
+        //     jit.AddConstant(MakeJitConstant("PER_TOKEN_QUANTIZE_SIZE", 1));
+        // }
     } else {
         if (add_decompress_scale_post_op)
             jit.AddConstant(MakeJitConstant("DECOMPRESSION_SCALE_POST_OP", 1));
@@ -887,24 +933,38 @@ void FullyConnected_bf_tiled::GetUpdateDispatchDataFunc(KernelData& kd) const {
                     kd.kernels[0].skip_execution = false;
                     size_t input_f = get_input_bf_size(prim_params).second;
                     size_t input_size = input_f * dispatchData.tile_m * dispatchData.gws[2];
+                    OPENVINO_ASSERT(quantize_grp_size != 0, "Error: quantize_grp_size is zero.");
+                    size_t quan_var_size = (input_size / quantize_grp_size) * 4 * 2;
 
-                    printf(">>>> Update-intr-buffer(%s) : input_b(%u) input_f(%u) input_size(%u) quan_group_size(%u) GWS[0](%u) per-token-GWS(%u)\n",
-                            (kd.internalBufferSizes[0] < input_size) ? "Y" : "N",
-                            get_input_bf_size(prim_params).first, input_f, input_size, quantize_grp_size,
-                            (input_size / quantize_grp_size), (input_size / input_f));
+                    // printf(">>>> Update-intr-buffer(%s) : input_b(%u) input_f(%u) input_size(%u) quan_group_size(%u) \
+                    //         GWS[0](%d) per-token-GWS(%d) NUM_LOOP_IN_DYN_QUAN_GROUP(%d)\n",
+                    //         (kd.internalBufferSizes[0] < input_size) ? "Y" : "N",
+                    //         get_input_bf_size(prim_params).first, input_f, input_size, quantize_grp_size,
+                    //         (int)(input_size / quantize_grp_size), (int)(input_size / input_f), (int)(quantize_grp_size / (dispatchData.tile_mk * simd)));
 
-                    if (kd.internalBufferSizes[0] < input_size) {
+                    if (kd.internalBufferSizes[0] < input_size ||
+                        kd.internalBufferSizes[1] < quan_var_size) {
                         kd.internalBufferSizes.clear();
                         // quantized input is char type
                         kd.internalBufferSizes.push_back(input_size);
-                        // half type of de_quan_scale and activation sum for each quantized group
-                        OPENVINO_ASSERT(quantize_grp_size != 0, "Error: quantize_grp_size is zero.");
-                        kd.internalBufferSizes.push_back((input_size / quantize_grp_size) * 4 * 2);
+                        // float type of de_quan_scale and activation sum for each quantized group
+                        kd.internalBufferSizes.push_back(quan_var_size);
                     }
 
                     OPENVINO_ASSERT(quantize_grp_size != 0, "Error: quantize_grp_size is zero.");
-                    kd.kernels[0].params.workGroups.global = {std::max((input_size / quantize_grp_size), (size_t)1), 1, 1};
-                    kd.kernels[0].params.workGroups.local = {16, 1, 1};
+                    kd.kernels[0].params.workGroups.global = {(std::max((input_size / quantize_grp_size), (size_t)1)), 1, 1};
+                    kd.kernels[0].params.workGroups.local = {1, 1, 1};
+                    // [TEST]
+                    // {
+                    //     auto vec_size = get_match_vector_size(prim_params);
+                    //     auto bf_size = get_input_bf_size(prim_params);
+                    //     size_t total_block_num = bf_size.second / (simd * vec_size);
+                    //     size_t batch = get_input_bf_size(prim_params).first;
+                    //     size_t block_num = (total_block_num > 32) ? 32 : total_block_num;
+
+                    //     kd.kernels[0].params.workGroups.global = {simd, block_num, batch};
+                    //     kd.kernels[0].params.workGroups.local = {simd, block_num, 1};
+                    // }
                 }
             }
         };
@@ -1079,8 +1139,22 @@ KernelsData FullyConnected_bf_tiled::GetMultiKernelsData(const Params &params,
         auto input_size = std::max(fc_params.inputs[0].PhysicalSize(), get_input_bf_size(fc_params).second);
         if (!params.is_shape_agnostic)
             input_size = std::max(input_size, Align(get_input_bf_size(fc_params).first, lws_batches) * get_input_bf_size(fc_params).second);
-        dyn_quan_dispatch.gws = {input_size / quantize_grp_size, 1, 1};
-        dyn_quan_dispatch.lws = {16, 1, 1};
+
+        dyn_quan_dispatch.gws = {(input_size / quantize_grp_size), 1, 1};
+        dyn_quan_dispatch.lws = {1, 1, 1};
+
+        // [TEST]
+        // {
+        //     auto vec_size = get_match_vector_size(fc_params);
+        //     auto bf_size = get_input_bf_size(fc_params);
+        //     size_t total_block_num = bf_size.second / (simd * vec_size);
+        //     size_t batch = get_input_bf_size(fc_params).first;
+        //     size_t block_num = (total_block_num > 32) ? 32 : total_block_num;
+
+        //     dyn_quan_dispatch.gws = {simd, block_num, batch};
+        //     dyn_quan_dispatch.lws = {simd, block_num, 1};
+        // }
+
         quan_kernel.params.workGroups.global = dyn_quan_dispatch.gws;
         quan_kernel.params.workGroups.local = dyn_quan_dispatch.lws;
         quan_kernel.skip_execution = false;
@@ -1105,16 +1179,22 @@ KernelsData FullyConnected_bf_tiled::GetMultiKernelsData(const Params &params,
                         fc_params.is_shape_agnostic);
 
         quan_kernel.params.arguments.clear();  // Clear original output argument
+        // quan_kernel.params.arguments.push_back({ArgumentDescriptor::Types::SHAPE_INFO, 0});
         quan_kernel.params.arguments.push_back({ArgumentDescriptor::Types::INPUT, 0});
         quan_kernel.params.arguments.push_back({ArgumentDescriptor::Types::INTERNAL_BUFFER, 0});
         quan_kernel.params.arguments.push_back({ArgumentDescriptor::Types::INTERNAL_BUFFER, 1});
         // char type quantized input
         kd.internalBufferSizes.push_back(input_size);
-        // half type of de_quan_scale and activation sum for each quantized group
-        // [TEST]
-        // kd.internalBufferSizes.push_back(input_size / quantize_grp_size * 2 * 2);
+        // float type of de_quan_scale and activation sum for each quantized group
         kd.internalBufferSizes.push_back(input_size / quantize_grp_size * 4 * 2);
         kernel_number++;
+
+        // printf(">>>> Set-buffer : input_b(%u) input_f(%u) input_size(%u) quan_group_size(%u) \
+        //         GWS[0](%d) per-token-GWS(%d) NUM_LOOP_IN_DYN_QUAN_GROUP(%d)\n",
+        //         get_input_bf_size(fc_params).first, get_input_bf_size(fc_params).second, input_size, quantize_grp_size,
+        //         (int)(quan_kernel.params.workGroups.global[0]), (int)(input_size / get_input_bf_size(fc_params).second),
+        //         (int)(quantize_grp_size / (dispatchData.tile_mk * simd)));
+
     }
     // kd.internalBufferDataType = Datatype::F16;
     kd.internalBufferDataType = Datatype::F32;
diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
index 3ef19a53d512e5..3eafb9ad416bb8 100644
--- a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
+++ b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
@@ -4228,9 +4228,12 @@ TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_tes
 TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_128) {
     this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, 128, 128, true);
 }
-TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_per_token) {
+TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_fake_per_token) {
     this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, -1, 32, true);
 }
+TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_per_token) {
+    this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, -1, 1024, true);
+}
 
 TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_32) {
     this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 640, 1024, 2048, 32, 32, true);
@@ -4238,9 +4241,14 @@ TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_tes
 TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_128) {
     this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 640, 1024, 2048, 128, 128, true);
 }
-TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_per_token) {
+TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_fake_per_token) {
     this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 640, 1024, 2048, -1, 32, true);
 }
+TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_per_token) {
+    this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 600, 1024, 2048, -1, 1024, true);
+}
+
+
 
 TEST_F(fully_connected_gpu_tests, compressed_scale_bias) {
     this->test_compressed_scale_bias(false);

From 02dfdbb55a67e92e789c2e0586ae3285a0568004 Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Thu, 5 Dec 2024 00:17:04 +0900
Subject: [PATCH 03/16] Clear unused lines

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../fully_connected_gpu_bf_tiled.cl           | 29 +-----
 .../fully_connected_kernel_bf_tiled.cpp       | 96 +++----------------
 2 files changed, 15 insertions(+), 110 deletions(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
index b509b7554c1a7c..c2497fcd39017d 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
+++ b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
@@ -20,15 +20,8 @@
 #define INPUT_LOAD_SIZE                     4
 
 #if FC_KERNEL_DYNAMIC_QUANTIZE
-//#define VLOAD_N CAT(vload, VEC_SIZE)
-//#define VSTORE_N CAT(vstore, VEC_SIZE)
-//#define CONVERT_CHAR_N CAT(convert_char, VEC_SIZE)
-//#define AS_TYPE_N_(type, n, x) as_##type##n(x)
-//#define AS_TYPE_N(type, n, x) AS_TYPE_N_(type, n, x)
-//#define AS_INPUT_TYPE_N(x) AS_TYPE_N(INPUT0_TYPE, VEC_SIZE, x)
 
 KERNEL(quantize_input)(
-    // OPTIONAL_SHAPE_INFO_ARG
     const __global INPUT0_TYPE* input,
     __global DQ_TYPE* quantized_input,
     __global float* quan_var
@@ -37,37 +30,21 @@ KERNEL(quantize_input)(
 
     const uint input_offset = offset * QUANTIZE_GROUP_SIZE;
     const uint quantize_block = QUANTIZE_GROUP_SIZE / 4;
-    // MAKE_VECTOR_TYPE(INPUT0_TYPE, INPUT_LOAD_SIZE) input_0[quantize_block];
     MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE) quantized_value;
-    // INPUT0_TYPE  max[quantize_block];
-    INPUT0_TYPE max_value = 0.001f;
+    float max_value = 0.0001f;
 
     MAKE_VECTOR_TYPE(INPUT0_TYPE, INPUT_LOAD_SIZE) input_buff;
     for (uint i = 0 ; i < quantize_block ; ++i) {
-        // input_0[i] = vload4(0, &input[input_offset + i * 4]);
-        // max[i] = fmax(fmax(fabs(input_0[i][0]), fabs(input_0[i][1])), fmax(fabs(input_0[i][2]), fabs(input_0[i][3])));
         input_buff = vload4(0, &input[input_offset + i * 4]);
         INPUT0_TYPE max = fmax(fmax(fabs(input_buff[0]), fabs(input_buff[1])), fmax(fabs(input_buff[2]), fabs(input_buff[3])));
         max_value = fmax(max, max_value);
     }
-    // unroll_for (uint i = 0 ; i < quantize_block ; ++i) {
-    //     input_0[i] = vload4(0, &input[input_offset + i * 4]);
-    //     max[i] = fmax(fmax(fabs(input_0[i][0]), fabs(input_0[i][1])), fmax(fabs(input_0[i][2]), fabs(input_0[i][3])));
-    // }
-
-    // float max_value = 0.001f;
-    // for (uint i = 0 ; i < quantize_block ; i+=8) {
-    //     INPUT0_TYPE temp = fmax(fmax(fmax(max[i], max[i+1]), fmax(max[i+2], max[i+3])),
-    //                             fmax(fmax(max[i+4], max[i+5]), fmax(max[i+6], max[i+7])));
-    //     max_value = fmax((float)(temp), max_value);
-    // }
-
-    float quan_scale = (float)max_value / 127.f;
+
+    float quan_scale = max_value / 127.f;
     #if COMPRESSED_WEIGHTS_INT8
         int quantized_sum = 0;
     #endif
     for (uint i = 0 ; i < quantize_block ; ++i) {
-        // float4 buff = (convert_float4)(input_0[i]) / (float4)quan_scale;
         float4 buff = (convert_float4)(vload4(0, &input[input_offset + i * 4])) / (float4)quan_scale;
 
         quantized_value = CAT(CAT(convert_, MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE)), _rte)(buff);
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
index 505f26fbb7762a..0055bb0a6c41ce 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
+++ b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
@@ -108,29 +108,20 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
         }
     }
 
-    const size_t scale_group_size = get_scale_group_size(params);
+    size_t scale_group_size = get_scale_group_size(params);
+    size_t zp_group_size = 0;
+    if (params.has_decompression_zp)
+        const size_t zp_group_size = params.weights.IFM().v / params.decompression_zero_point.Feature().v;
 
     // Per-token dyn-quan
-    if (dynamic_quantization_group_size >= min_quantize_grp_size && is_per_token_dynamic_quantize(params) &&
-        scale_group_size != 0) {
-        // if (is_dyn_quan_8bit_asym(params)) {
-        //     // Should calculate activation sum by scale_group_size for post-operation
-        //     dynamic_quantization_group_size = scale_group_size;
-        //     // printf("!!!! per token dyn-quan(%s) : scale_group_size(%u) input_f(%d) get_input_bf_size(params).second(%u)\n",
-        //     //         ((is_dyn_quan_8bit_asym(params) == true) ? "Y" : "N"),
-        //     //         scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
-        // } else {
-        //     dynamic_quantization_group_size = get_input_bf_size(params).second;
-        // }
-
-        auto selected_size = scale_group_size;
-        // auto selected_size = scale_group_size / 2;
-        if ((scale_group_size % min_quantize_grp_size) == 0 && selected_size > min_quantize_grp_size) {
-            dynamic_quantization_group_size = selected_size;
-
-            // printf("!!!! per token dyn-quan(%s) : scale_group_size(%u) / input_f(%d) dynamic_quantization_group_size(%u)\n",
-            //     ((is_per_token_dynamic_quantize(params) == true) ? "Y" : "N"),
-            //     scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
+    if (dynamic_quantization_group_size >= min_quantize_grp_size && is_per_token_dynamic_quantize(params)) {
+        // Validate size to fit dyn-quan group to the size of weight-scale and weight-zp
+        if ((scale_group_size % min_quantize_grp_size) == 0 && scale_group_size > min_quantize_grp_size) {
+            dynamic_quantization_group_size = scale_group_size;
+
+            GPU_DEBUG_TRACE_DETAIL << "FC dyn-quantize by per-token. Actual dyn_quan_group_size(" << dynamic_quantization_group_size
+                                    << ") : From scale_group_size (" << scale_group_size << ", zp_group_size("  << zp_group_size
+                                    <<  "), ifm_size (" << get_input_bf_size(params).second << ")" << std::endl;
             return (size_t)dynamic_quantization_group_size;
         }
     }
@@ -149,15 +140,10 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
                 dynamic_quantization_group_size = scale_group_size;
             }
 
-            // printf("!!!! per token dyn-quan(N) : scale_group_size(%u) / input_f(%d) dynamic_quantization_group_size(%u)\n",
-            //         scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
             return (size_t)dynamic_quantization_group_size;
         }
     }
 
-    // printf("!!!! per token dyn-quan(N) : scale_group_size(%u) / input_f(%d) dynamic_quantization_group_size(%u)\n",
-    //         scale_group_size, (int)get_input_bf_size(params).second, dynamic_quantization_group_size);
-
     return 0;
 }
 
@@ -775,27 +761,6 @@ JitConstants FullyConnected_bf_tiled::GetJitConstants(const fully_connected_para
         jit.AddConstant(MakeJitConstant("DYNAMIC_QUANTIZE", 1));
         jit.AddConstant(MakeJitConstant("DQ_DECOMPRESSION_SCALE_POST_OP", 1));
         jit.AddConstant(MakeJitConstant("QUANTIZE_GROUP_SIZE", quantize_grp_size));
-        // jit.AddConstant(MakeJitConstant("VEC_SIZE", quantize_grp_size/16));
-
-        // [TEST]
-        // {
-        //     auto vec_size = get_match_vector_size(params);
-        //     auto bf_size = get_input_bf_size(params);
-        //     auto total_block_num = bf_size.second / (simd * vec_size);
-        //     size_t aligned_block_num = (total_block_num > 32) ? Align(total_block_num, 32) : total_block_num;
-        //     size_t block_num = (total_block_num > 32) ? 32 : total_block_num;
-
-        //     jit.AddConstant(MakeJitConstant("VEC_SIZE", vec_size));
-        //     jit.AddConstant(MakeJitConstant("SIMD", simd));
-        //     jit.AddConstant(MakeJitConstant("TOTAL_BLOCK_NUM", total_block_num));
-        //     jit.AddConstant(MakeJitConstant("ALIGNED_BLOCK_NUM", aligned_block_num));
-        //     jit.AddConstant(MakeJitConstant("BLOCK_NUM", block_num));
-        //     jit.Merge(GetTensorFriendlyWorkGroupsJit(params.outputs[0]));
-        // }
-
-        // if (is_per_token_dynamic_quantize(params) && quantize_grp_size == get_input_bf_size(params).second) {
-        //     jit.AddConstant(MakeJitConstant("PER_TOKEN_QUANTIZE_SIZE", 1));
-        // }
     } else {
         if (add_decompress_scale_post_op)
             jit.AddConstant(MakeJitConstant("DECOMPRESSION_SCALE_POST_OP", 1));
@@ -936,12 +901,6 @@ void FullyConnected_bf_tiled::GetUpdateDispatchDataFunc(KernelData& kd) const {
                     OPENVINO_ASSERT(quantize_grp_size != 0, "Error: quantize_grp_size is zero.");
                     size_t quan_var_size = (input_size / quantize_grp_size) * 4 * 2;
 
-                    // printf(">>>> Update-intr-buffer(%s) : input_b(%u) input_f(%u) input_size(%u) quan_group_size(%u) \
-                    //         GWS[0](%d) per-token-GWS(%d) NUM_LOOP_IN_DYN_QUAN_GROUP(%d)\n",
-                    //         (kd.internalBufferSizes[0] < input_size) ? "Y" : "N",
-                    //         get_input_bf_size(prim_params).first, input_f, input_size, quantize_grp_size,
-                    //         (int)(input_size / quantize_grp_size), (int)(input_size / input_f), (int)(quantize_grp_size / (dispatchData.tile_mk * simd)));
-
                     if (kd.internalBufferSizes[0] < input_size ||
                         kd.internalBufferSizes[1] < quan_var_size) {
                         kd.internalBufferSizes.clear();
@@ -954,17 +913,6 @@ void FullyConnected_bf_tiled::GetUpdateDispatchDataFunc(KernelData& kd) const {
                     OPENVINO_ASSERT(quantize_grp_size != 0, "Error: quantize_grp_size is zero.");
                     kd.kernels[0].params.workGroups.global = {(std::max((input_size / quantize_grp_size), (size_t)1)), 1, 1};
                     kd.kernels[0].params.workGroups.local = {1, 1, 1};
-                    // [TEST]
-                    // {
-                    //     auto vec_size = get_match_vector_size(prim_params);
-                    //     auto bf_size = get_input_bf_size(prim_params);
-                    //     size_t total_block_num = bf_size.second / (simd * vec_size);
-                    //     size_t batch = get_input_bf_size(prim_params).first;
-                    //     size_t block_num = (total_block_num > 32) ? 32 : total_block_num;
-
-                    //     kd.kernels[0].params.workGroups.global = {simd, block_num, batch};
-                    //     kd.kernels[0].params.workGroups.local = {simd, block_num, 1};
-                    // }
                 }
             }
         };
@@ -1143,18 +1091,6 @@ KernelsData FullyConnected_bf_tiled::GetMultiKernelsData(const Params &params,
         dyn_quan_dispatch.gws = {(input_size / quantize_grp_size), 1, 1};
         dyn_quan_dispatch.lws = {1, 1, 1};
 
-        // [TEST]
-        // {
-        //     auto vec_size = get_match_vector_size(fc_params);
-        //     auto bf_size = get_input_bf_size(fc_params);
-        //     size_t total_block_num = bf_size.second / (simd * vec_size);
-        //     size_t batch = get_input_bf_size(fc_params).first;
-        //     size_t block_num = (total_block_num > 32) ? 32 : total_block_num;
-
-        //     dyn_quan_dispatch.gws = {simd, block_num, batch};
-        //     dyn_quan_dispatch.lws = {simd, block_num, 1};
-        // }
-
         quan_kernel.params.workGroups.global = dyn_quan_dispatch.gws;
         quan_kernel.params.workGroups.local = dyn_quan_dispatch.lws;
         quan_kernel.skip_execution = false;
@@ -1179,7 +1115,6 @@ KernelsData FullyConnected_bf_tiled::GetMultiKernelsData(const Params &params,
                         fc_params.is_shape_agnostic);
 
         quan_kernel.params.arguments.clear();  // Clear original output argument
-        // quan_kernel.params.arguments.push_back({ArgumentDescriptor::Types::SHAPE_INFO, 0});
         quan_kernel.params.arguments.push_back({ArgumentDescriptor::Types::INPUT, 0});
         quan_kernel.params.arguments.push_back({ArgumentDescriptor::Types::INTERNAL_BUFFER, 0});
         quan_kernel.params.arguments.push_back({ArgumentDescriptor::Types::INTERNAL_BUFFER, 1});
@@ -1188,13 +1123,6 @@ KernelsData FullyConnected_bf_tiled::GetMultiKernelsData(const Params &params,
         // float type of de_quan_scale and activation sum for each quantized group
         kd.internalBufferSizes.push_back(input_size / quantize_grp_size * 4 * 2);
         kernel_number++;
-
-        // printf(">>>> Set-buffer : input_b(%u) input_f(%u) input_size(%u) quan_group_size(%u) \
-        //         GWS[0](%d) per-token-GWS(%d) NUM_LOOP_IN_DYN_QUAN_GROUP(%d)\n",
-        //         get_input_bf_size(fc_params).first, get_input_bf_size(fc_params).second, input_size, quantize_grp_size,
-        //         (int)(quan_kernel.params.workGroups.global[0]), (int)(input_size / get_input_bf_size(fc_params).second),
-        //         (int)(quantize_grp_size / (dispatchData.tile_mk * simd)));
-
     }
     // kd.internalBufferDataType = Datatype::F16;
     kd.internalBufferDataType = Datatype::F32;

From e2c4732eee67981eae660a420da3500a387f93fb Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Thu, 5 Dec 2024 02:08:24 +0900
Subject: [PATCH 04/16] Improve perf and fix for weight zp

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../cl_kernels/fully_connected_gpu_bf_tiled.cl            | 4 ++--
 .../fully_connected/fully_connected_kernel_bf_tiled.cpp   | 8 +++++++-
 2 files changed, 9 insertions(+), 3 deletions(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
index c2497fcd39017d..a60e2b2956792a 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
+++ b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
@@ -31,7 +31,7 @@ KERNEL(quantize_input)(
     const uint input_offset = offset * QUANTIZE_GROUP_SIZE;
     const uint quantize_block = QUANTIZE_GROUP_SIZE / 4;
     MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE) quantized_value;
-    float max_value = 0.0001f;
+    INPUT0_TYPE max_value = 0.0001h;
 
     MAKE_VECTOR_TYPE(INPUT0_TYPE, INPUT_LOAD_SIZE) input_buff;
     for (uint i = 0 ; i < quantize_block ; ++i) {
@@ -40,7 +40,7 @@ KERNEL(quantize_input)(
         max_value = fmax(max, max_value);
     }
 
-    float quan_scale = max_value / 127.f;
+    float quan_scale = (float)max_value / 127.f;
     #if COMPRESSED_WEIGHTS_INT8
         int quantized_sum = 0;
     #endif
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
index 0055bb0a6c41ce..ce153624ceb9b4 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
+++ b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
@@ -109,6 +109,7 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
     }
 
     size_t scale_group_size = get_scale_group_size(params);
+    size_t zp_group_num = params.decompression_zero_point.Feature().v;
     size_t zp_group_size = 0;
     if (params.has_decompression_zp)
         const size_t zp_group_size = params.weights.IFM().v / params.decompression_zero_point.Feature().v;
@@ -119,9 +120,14 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
         if ((scale_group_size % min_quantize_grp_size) == 0 && scale_group_size > min_quantize_grp_size) {
             dynamic_quantization_group_size = scale_group_size;
 
+            if (is_dyn_quan_8bit_asym(params) && params.has_decompression_zp &&
+                dynamic_quantization_group_size < zp_group_size && (zp_group_size % min_quantize_grp_size) == 0) {
+                dynamic_quantization_group_size = zp_group_size;
+            }
+
             GPU_DEBUG_TRACE_DETAIL << "FC dyn-quantize by per-token. Actual dyn_quan_group_size(" << dynamic_quantization_group_size
                                     << ") : From scale_group_size (" << scale_group_size << ", zp_group_size("  << zp_group_size
-                                    <<  "), ifm_size (" << get_input_bf_size(params).second << ")" << std::endl;
+                                    << "), zp_group_num(" << zp_group_num << "), ifm_size (" << get_input_bf_size(params).second << ")" << std::endl;
             return (size_t)dynamic_quantization_group_size;
         }
     }

From 15200995ff5eb1297dfc81d6699f02c6069fbe12 Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Mon, 9 Dec 2024 19:47:21 +0900
Subject: [PATCH 05/16] [GPU] Implement execution failure of sd1.5

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../fully_connected_gpu_bf_tiled.cl           | 54 +++++++++----------
 .../fully_connected_kernel_bf_tiled.cpp       | 15 +++---
 2 files changed, 36 insertions(+), 33 deletions(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
index a60e2b2956792a..608c838303d17b 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
+++ b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
@@ -20,33 +20,38 @@
 #define INPUT_LOAD_SIZE                     4
 
 #if FC_KERNEL_DYNAMIC_QUANTIZE
-
 KERNEL(quantize_input)(
     const __global INPUT0_TYPE* input,
     __global DQ_TYPE* quantized_input,
-    __global float* quan_var
+    __global INPUT0_TYPE* quan_var
 ) {
     const uint offset = get_global_id(0);
 
     const uint input_offset = offset * QUANTIZE_GROUP_SIZE;
     const uint quantize_block = QUANTIZE_GROUP_SIZE / 4;
+    MAKE_VECTOR_TYPE(INPUT0_TYPE, INPUT_LOAD_SIZE) input_0;
     MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE) quantized_value;
-    INPUT0_TYPE max_value = 0.0001h;
+    INPUT0_TYPE  max[quantize_block];
 
-    MAKE_VECTOR_TYPE(INPUT0_TYPE, INPUT_LOAD_SIZE) input_buff;
-    for (uint i = 0 ; i < quantize_block ; ++i) {
-        input_buff = vload4(0, &input[input_offset + i * 4]);
-        INPUT0_TYPE max = fmax(fmax(fabs(input_buff[0]), fabs(input_buff[1])), fmax(fabs(input_buff[2]), fabs(input_buff[3])));
-        max_value = fmax(max, max_value);
+    unroll_for (uint i = 0 ; i < quantize_block ; ++i) {
+        input_0 = vload4(0, &input[input_offset + i * 4]);
+        max[i] = fmax(fmax(fabs(input_0[0]), fabs(input_0[1])), fmax(fabs(input_0[2]), fabs(input_0[3])));
+    }
+
+    INPUT0_TYPE max_value = 0.001;
+    for (uint i = 0 ; i < quantize_block ; i+=8) {
+        INPUT0_TYPE temp = fmax(fmax(fmax(max[i], max[i+1]), fmax(max[i+2], max[i+3])),
+                                fmax(fmax(max[i+4], max[i+5]), fmax(max[i+6], max[i+7])));
+        max_value = fmax(max_value, temp);
     }
 
-    float quan_scale = (float)max_value / 127.f;
+    half quan_scale = (half)max_value / 127.h;
     #if COMPRESSED_WEIGHTS_INT8
         int quantized_sum = 0;
     #endif
     for (uint i = 0 ; i < quantize_block ; ++i) {
-        float4 buff = (convert_float4)(vload4(0, &input[input_offset + i * 4])) / (float4)quan_scale;
-
+        input_0 = vload4(0, &input[input_offset + i * 4]);
+        half4 buff = input_0 / (half4)quan_scale;
         quantized_value = CAT(CAT(convert_, MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE)), _rte)(buff);
         #if COMPRESSED_WEIGHTS_INT8
             quantized_sum += quantized_value[0] + quantized_value[1] + quantized_value[2] + quantized_value[3];
@@ -57,7 +62,7 @@ KERNEL(quantize_input)(
     // Pair of quantizing_scale and quantized activation_sum for each group
     quan_var[offset * 2] = quan_scale;
     #if COMPRESSED_WEIGHTS_INT8
-        quan_var[(offset * 2) + 1] = (convert_float)(quantized_sum);
+        quan_var[(offset * 2) + 1] = CAT(CAT(convert_, INPUT0_TYPE), _rte)(quantized_sum);
     #endif
 }
 #else  // !FC_KERNEL_DYNAMIC_QUANTIZE
@@ -802,9 +807,6 @@ inline void FUNC(fc_bf_tiled_kernel_default)(
     // =====================================================================================================================================
 }
 
-
-
-
 // Dyc Quantize
 #if USE_SLM && DYNAMIC_QUANTIZE
 
@@ -836,7 +838,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
     OPTIONAL_SHAPE_INFO_ARG
     const __global INPUT0_TYPE* input,
     __global DQ_TYPE* quantized_input,
-    __global float* quan_var,  // pair of params for each quantizing group : scale, activation_sum
+    __global INPUT0_TYPE* quan_var,  // pair of params for each quantizing group : scale, activation_sum
 #if DECOMPRESSION_SCALE_TERM
     const __global DECOMPRESSION_SCALE_TYPE* decompression_scale,
 #endif
@@ -913,9 +915,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
     INPUT0_TYPE                                     de_quantize_scale[TILE_B];
 
     #if COMPRESSED_WEIGHTS_INT8
-        // [TEST]
-        // INPUT0_TYPE activation_sum[TILE_B] = { };
-        float activation_sum[TILE_B] = { };
+        INPUT0_TYPE activation_sum[TILE_B] = { };
     #endif
 
     #if COMPRESSED_WEIGHTS && DECOMPRESSION_SCALE_GROUPS_NUM == 1
@@ -990,8 +990,8 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
             in_offset += (TILE_IN_B_PITCH * 2);
 
             #if NUM_LOOP_IN_DYN_QUAN_GROUP == 1
-                de_quantize_scale[bi * 2] = convert_half(quan_var[scale_offset * 2]);
-                de_quantize_scale[bi * 2 + 1] = convert_half(quan_var[scale_offset * 2 + scale_pitch * 2]);
+                de_quantize_scale[bi * 2] = quan_var[scale_offset * 2];
+                de_quantize_scale[bi * 2 + 1] = quan_var[scale_offset * 2 + scale_pitch * 2];
                 #if COMPRESSED_WEIGHTS_INT8
                     // Need additional accumulation of quantized activation along the dyn-quan group
                     //  to use i8 multiplier for int8 weight
@@ -1005,7 +1005,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
         #if NUM_LOOP_IN_DYN_QUAN_GROUP > 1
             if (ni % NUM_LOOP_IN_DYN_QUAN_GROUP == 0) {
                 unroll_for (uint bi = 0; bi < TILE_B; ++bi) {
-                    de_quantize_scale[bi] = convert_half(quan_var[scale_offset * 2]);
+                    de_quantize_scale[bi] = quan_var[scale_offset * 2];
                     #if COMPRESSED_WEIGHTS_INT8
                         activation_sum[bi] = quan_var[scale_offset * 2 + 1];
                     #endif
@@ -1195,8 +1195,8 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
                         #endif
 
                         #if COMPRESSED_WEIGHTS_INT8
-                            ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * (activation_sum[bi]));
-                            ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += (convert_half)(convert_float(modified_calc_buff) * (float)ds * de_quantize_scale[bi]);
+                            ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * (convert_float)(activation_sum[bi]));
+                            ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += (convert_half)(convert_float(modified_calc_buff) * (float)ds * (float)de_quantize_scale[bi]);
                         #else
                             ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += convert_half(((int *)(&acc_tmp[fi]))[bi]) * ds * de_quantize_scale[bi];
                         #endif
@@ -1222,8 +1222,8 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
                         #endif
 
                         #if COMPRESSED_WEIGHTS_INT8
-                            ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * (activation_sum[bi]));
-                            ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += (convert_half)(convert_float(modified_calc_buff) * (float)ds * de_quantize_scale[bi]);
+                            ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * (convert_float)(activation_sum[bi]));
+                            ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += (convert_half)(convert_float(modified_calc_buff) * (float)ds * (float)de_quantize_scale[bi]);
                         #else
                             ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += convert_half(((int *)(&acc_tmp[fi]))[bi]) * ds * de_quantize_scale[bi];
                         #endif
@@ -1365,7 +1365,7 @@ KERNEL(fc)(
 #endif
 #if DYNAMIC_QUANTIZE
     , __global DQ_TYPE* quantized_input
-    , __global float* quan_var
+    , __global INPUT0_TYPE* quan_var
 #endif
 ) {
 #if USE_SLM
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
index ce153624ceb9b4..e80e7fff1730d8 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
+++ b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
@@ -11,10 +11,10 @@
 
 static constexpr size_t lws_batches = 8;
 static constexpr size_t simd = 16;
+static constexpr size_t act_load_size = 4;
 static constexpr size_t min_quantize_grp_size = (simd * 2); // SIMD * (min value of tile_ifm)
 static constexpr size_t min_slm_size = 256;
-// static std::vector<size_t> available_quantize_grp_size = {128, 64, 32};
-static std::vector<size_t> available_quantize_grp_size = {512, 256, 128, 64, 32};
+static std::vector<size_t> available_quantize_grp_size = {128, 64, 32};
 
 namespace kernel_selector {
 
@@ -112,7 +112,7 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
     size_t zp_group_num = params.decompression_zero_point.Feature().v;
     size_t zp_group_size = 0;
     if (params.has_decompression_zp)
-        const size_t zp_group_size = params.weights.IFM().v / params.decompression_zero_point.Feature().v;
+        zp_group_size = params.weights.IFM().v / params.decompression_zero_point.Feature().v;
 
     // Per-token dyn-quan
     if (dynamic_quantization_group_size >= min_quantize_grp_size && is_per_token_dynamic_quantize(params)) {
@@ -120,8 +120,9 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
         if ((scale_group_size % min_quantize_grp_size) == 0 && scale_group_size > min_quantize_grp_size) {
             dynamic_quantization_group_size = scale_group_size;
 
-            if (is_dyn_quan_8bit_asym(params) && params.has_decompression_zp &&
-                dynamic_quantization_group_size < zp_group_size && (zp_group_size % min_quantize_grp_size) == 0) {
+            // For int8 ASYM model, activation_sum should fit to weight zp
+            if (is_dyn_quan_8bit_asym(params) && params.has_decompression_zp == true &&
+                dynamic_quantization_group_size > zp_group_size && (zp_group_size % act_load_size) == 0) {
                 dynamic_quantization_group_size = zp_group_size;
             }
 
@@ -773,10 +774,12 @@ JitConstants FullyConnected_bf_tiled::GetJitConstants(const fully_connected_para
         jit.AddConstant(MakeJitConstant("DYNAMIC_QUANTIZE", 0));
         jit.AddConstant(MakeJitConstant("QUANTIZE_GROUP_SIZE", min_quantize_grp_size));
     }
-    jit.AddConstant(MakeJitConstant("DQ_TYPE", "char"));
 
+    jit.AddConstant(MakeJitConstant("INPUT_LOAD_SIZE", act_load_size));
+    jit.AddConstant(MakeJitConstant("DQ_TYPE", "char"));
     jit.AddConstant(MakeJitConstant("IFM_SIZE", get_input_bf_size(params).second));
     jit.AddConstant(MakeJitConstant("SIMD", simd));
+
     jit.AddConstant(MakeJitConstant("TILE_B", dispatchData.tile_m));
     jit.AddConstant(MakeJitConstant("HALF_TILE_B", dispatchData.tile_m/2));
     jit.AddConstant(MakeJitConstant("TILE_OFM", dispatchData.tile_n));

From 8e4495fe224aa756d0fd00332092b9553f26733e Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Mon, 9 Dec 2024 20:50:44 +0900
Subject: [PATCH 06/16] [GPU] Improve per-token perf

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../fully_connected_gpu_bf_tiled.cl           | 51 ++++++++++---------
 1 file changed, 26 insertions(+), 25 deletions(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
index 608c838303d17b..c6768c6e60a2f3 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
+++ b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
@@ -1043,6 +1043,17 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
 
         #if COMPRESSED_WEIGHTS_INT8
             ACCUMULATOR_TYPE wei_zp[TILE_OFM] = { };
+            unroll_for(uint fi = 0; fi < TILE_OFM; ++fi) {
+                #if DECOMPRESSION_ZP_TERM
+                    #if DECOMPRESSION_ZP_SCALAR
+                        wei_zp[fi] = (TO_ACCUMULATOR_TYPE)(DECOMPRESSION_ZP_VALUE);
+                    #elif DECOMPRESSION_ZP_GROUPS_NUM == 1
+                        wei_zp[fi] = TO_ACCUMULATOR_TYPE(d_zps[fi % DECOMPRESSION_ZP_LENGTH]);
+                    #endif
+                #else
+                    wei_zp[fi] = ACCUMULATOR_VAL_ZERO;
+                #endif
+            }
         #endif
 
         // DQ_DECOMPRESSION_SCALE_POST_OP SHOULD be enabled for dynamic quantize FC : scale is ACCUMULATOR_VAL_ONE
@@ -1106,31 +1117,6 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
                 #endif
             #endif
 
-            #if COMPRESSED_WEIGHTS_INT8
-                unroll_for(uint fi = 0; fi < TILE_OFM; ++fi) {
-                    #if DECOMPRESSION_ZP_TERM
-                        #if DECOMPRESSION_ZP_SCALAR
-                            wei_zp[fi] = (TO_ACCUMULATOR_TYPE)(DECOMPRESSION_ZP_VALUE);
-                        #elif DECOMPRESSION_ZP_GROUPS_NUM > 1
-                            #if FILTER_LOAD_BLOCK_SIZE % DECOMPRESSION_ZP_GROUP_SIZE != 0
-                                #error "FC bf_tiled kernel: Not support DECOMPRESSION_ZP_GROUPS_NUM > 1"
-                            #endif
-
-                            const uint ni_offset = ni * TILE_IFM * SIMD + local_id * FILTER_LOAD_ITERS * FILTER_LOAD_BLOCK_SIZE;
-                            const uint offset_ofm = out_f + fi*SIMD + sglid;
-                            const uint offset_ifm = ni_offset + load_iter * FILTER_LOAD_BLOCK_SIZE;
-                            const uint zp_offset = (offset_ofm % DECOMPRESSION_ZP_BATCH_NUM) * DECOMPRESSION_ZP_BATCH_PITCH +
-                                                    (offset_ifm / DECOMPRESSION_ZP_GROUP_SIZE) * DECOMPRESSION_ZP_FEATURE_PITCH;
-                            wei_zp[fi] = TO_ACCUMULATOR_TYPE(decompression_zp[zp_offset]);
-                        #else
-                            wei_zp[fi] = TO_ACCUMULATOR_TYPE(d_zps[fi % DECOMPRESSION_ZP_LENGTH]);
-                        #endif
-                    #else
-                        wei_zp[fi] = ACCUMULATOR_VAL_ZERO;
-                    #endif
-                }
-            #endif
-
             #if FILTER_LOAD_BLOCK_SIZE == 2
                 SLM_WEIGHT_VEC wei_1 = {dq_wei_unpacked.s01, dq_wei_unpacked.s23};
                 char_slm_weight[wei_local_idx] = as_uint(wei_1);
@@ -1158,6 +1144,21 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
             #else
                 weights_idx += SIMD * FILTER_ACTUAL_LOAD_BLOCK_SIZE;
             #endif
+
+            #if COMPRESSED_WEIGHTS_INT8 && DECOMPRESSION_ZP_TERM && DECOMPRESSION_ZP_GROUPS_NUM > 1 && !DECOMPRESSION_ZP_SCALAR
+                unroll_for(uint fi = 0; fi < TILE_OFM; ++fi) {
+                    #if FILTER_LOAD_BLOCK_SIZE % DECOMPRESSION_ZP_GROUP_SIZE != 0
+                        #error "FC bf_tiled kernel: Not support DECOMPRESSION_ZP_GROUPS_NUM > 1"
+                    #endif
+
+                    const uint ni_offset = ni * TILE_IFM * SIMD + local_id * FILTER_LOAD_ITERS * FILTER_LOAD_BLOCK_SIZE;
+                    const uint offset_ofm = out_f + fi*SIMD + sglid;
+                    const uint offset_ifm = ni_offset + load_iter * FILTER_LOAD_BLOCK_SIZE;
+                    const uint zp_offset = (offset_ofm % DECOMPRESSION_ZP_BATCH_NUM) * DECOMPRESSION_ZP_BATCH_PITCH +
+                                            (offset_ifm / DECOMPRESSION_ZP_GROUP_SIZE) * DECOMPRESSION_ZP_FEATURE_PITCH;
+                    wei_zp[fi] = TO_ACCUMULATOR_TYPE(decompression_zp[zp_offset]);
+                }
+            #endif
         }
 
         wei_local_idx = sglid * 2;

From 298594e71d5ea4137a10616edb6dc30fe09a98f7 Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Tue, 10 Dec 2024 06:31:06 +0900
Subject: [PATCH 07/16] [GPU] Update unit-tests

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../test_cases/fully_connected_gpu_test.cpp    | 18 ++++++++----------
 1 file changed, 8 insertions(+), 10 deletions(-)

diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
index 3eafb9ad416bb8..f947ba10bf89f6 100644
--- a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
+++ b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
@@ -4193,6 +4193,7 @@ TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_sta
     this->test_compressed_int4_scale_dyn_quan_weight_i4(false, 320, 1024, 1024, 32, 32, true);
 }
 
+// Test weight zp for INT8 ASYM 
 TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_128_large) {
     this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 320, 4096, 4096, 128, 128, true);
 }
@@ -4221,16 +4222,15 @@ TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_128
     this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 1, 1024, 1024, 128, 128, true);
 }
 
-// [TEST]
+// Test per-token dyn-quan
 TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_32) {
     this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, 32, 32, true);
 }
-TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_128) {
-    this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, 128, 128, true);
-}
+
 TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_fake_per_token) {
     this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, -1, 32, true);
 }
+
 TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_per_token) {
     this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, -1, 1024, true);
 }
@@ -4238,18 +4238,16 @@ TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_tes
 TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_32) {
     this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 640, 1024, 2048, 32, 32, true);
 }
-TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_128) {
-    this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 640, 1024, 2048, 128, 128, true);
-}
-TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_fake_per_token) {
+
+TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_per_token_small_scale) {
     this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 640, 1024, 2048, -1, 32, true);
 }
-TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_per_token) {
+
+TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_per_token_full_scale) {
     this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 600, 1024, 2048, -1, 1024, true);
 }
 
 
-
 TEST_F(fully_connected_gpu_tests, compressed_scale_bias) {
     this->test_compressed_scale_bias(false);
 }

From 7527bbdbc3c411c76ec657a1da0849fc663c401f Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Tue, 10 Dec 2024 15:32:26 +0900
Subject: [PATCH 08/16] [GPU] Fix CI failure

+ Fixed CI issue
+ Added unit-tests

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../fully_connected_gpu_bf_tiled.cl           | 36 +++++++++----------
 .../fully_connected_kernel_bf_tiled.cpp       | 12 -------
 .../test_cases/fully_connected_gpu_test.cpp   | 34 ++++++++++--------
 3 files changed, 37 insertions(+), 45 deletions(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
index c6768c6e60a2f3..613544f510d1c3 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
+++ b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
@@ -17,20 +17,20 @@
 // DISPATCH_FSV - output coordinates for each sub-group are calculated from linearized coordinates
 // DISPATCH_BSV   as if they laid in bs_fs_bsv_fsv format, these macros describe fsv and bsv factors;
 
-#define INPUT_LOAD_SIZE                     4
+#define QUAN_BLOCK_SIZE INPUT_LOAD_SIZE
 
 #if FC_KERNEL_DYNAMIC_QUANTIZE
 KERNEL(quantize_input)(
     const __global INPUT0_TYPE* input,
     __global DQ_TYPE* quantized_input,
-    __global INPUT0_TYPE* quan_var
+    __global float* quan_var
 ) {
     const uint offset = get_global_id(0);
 
     const uint input_offset = offset * QUANTIZE_GROUP_SIZE;
-    const uint quantize_block = QUANTIZE_GROUP_SIZE / 4;
-    MAKE_VECTOR_TYPE(INPUT0_TYPE, INPUT_LOAD_SIZE) input_0;
-    MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE) quantized_value;
+    const uint quantize_block = QUANTIZE_GROUP_SIZE / QUAN_BLOCK_SIZE;
+    MAKE_VECTOR_TYPE(INPUT0_TYPE, QUAN_BLOCK_SIZE) input_0;
+    MAKE_VECTOR_TYPE(DQ_TYPE, QUAN_BLOCK_SIZE) quantized_value;
     INPUT0_TYPE  max[quantize_block];
 
     unroll_for (uint i = 0 ; i < quantize_block ; ++i) {
@@ -38,21 +38,21 @@ KERNEL(quantize_input)(
         max[i] = fmax(fmax(fabs(input_0[0]), fabs(input_0[1])), fmax(fabs(input_0[2]), fabs(input_0[3])));
     }
 
-    INPUT0_TYPE max_value = 0.001;
+    INPUT0_TYPE max_value = 0.001h;
     for (uint i = 0 ; i < quantize_block ; i+=8) {
         INPUT0_TYPE temp = fmax(fmax(fmax(max[i], max[i+1]), fmax(max[i+2], max[i+3])),
                                 fmax(fmax(max[i+4], max[i+5]), fmax(max[i+6], max[i+7])));
         max_value = fmax(max_value, temp);
     }
 
-    half quan_scale = (half)max_value / 127.h;
+    float quan_scale = (float)max_value / 127.f;
     #if COMPRESSED_WEIGHTS_INT8
         int quantized_sum = 0;
     #endif
     for (uint i = 0 ; i < quantize_block ; ++i) {
         input_0 = vload4(0, &input[input_offset + i * 4]);
-        half4 buff = input_0 / (half4)quan_scale;
-        quantized_value = CAT(CAT(convert_, MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE)), _rte)(buff);
+        float4 buff = convert_float4(input_0) / quan_scale;
+        quantized_value = CAT(CAT(convert_, MAKE_VECTOR_TYPE(DQ_TYPE, QUAN_BLOCK_SIZE)), _rte)(buff);
         #if COMPRESSED_WEIGHTS_INT8
             quantized_sum += quantized_value[0] + quantized_value[1] + quantized_value[2] + quantized_value[3];
         #endif
@@ -62,7 +62,7 @@ KERNEL(quantize_input)(
     // Pair of quantizing_scale and quantized activation_sum for each group
     quan_var[offset * 2] = quan_scale;
     #if COMPRESSED_WEIGHTS_INT8
-        quan_var[(offset * 2) + 1] = CAT(CAT(convert_, INPUT0_TYPE), _rte)(quantized_sum);
+        quan_var[(offset * 2) + 1] = CAT(CAT(convert_, float), _rte)(quantized_sum);
     #endif
 }
 #else  // !FC_KERNEL_DYNAMIC_QUANTIZE
@@ -838,7 +838,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
     OPTIONAL_SHAPE_INFO_ARG
     const __global INPUT0_TYPE* input,
     __global DQ_TYPE* quantized_input,
-    __global INPUT0_TYPE* quan_var,  // pair of params for each quantizing group : scale, activation_sum
+    __global float* quan_var,  // pair of params for each quantizing group : scale, activation_sum
 #if DECOMPRESSION_SCALE_TERM
     const __global DECOMPRESSION_SCALE_TYPE* decompression_scale,
 #endif
@@ -915,7 +915,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
     INPUT0_TYPE                                     de_quantize_scale[TILE_B];
 
     #if COMPRESSED_WEIGHTS_INT8
-        INPUT0_TYPE activation_sum[TILE_B] = { };
+        float activation_sum[TILE_B] = { };
     #endif
 
     #if COMPRESSED_WEIGHTS && DECOMPRESSION_SCALE_GROUPS_NUM == 1
@@ -990,8 +990,8 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
             in_offset += (TILE_IN_B_PITCH * 2);
 
             #if NUM_LOOP_IN_DYN_QUAN_GROUP == 1
-                de_quantize_scale[bi * 2] = quan_var[scale_offset * 2];
-                de_quantize_scale[bi * 2 + 1] = quan_var[scale_offset * 2 + scale_pitch * 2];
+                de_quantize_scale[bi * 2] = TO_INPUT0_TYPE(quan_var[scale_offset * 2]);
+                de_quantize_scale[bi * 2 + 1] = TO_INPUT0_TYPE(quan_var[scale_offset * 2 + scale_pitch * 2]);
                 #if COMPRESSED_WEIGHTS_INT8
                     // Need additional accumulation of quantized activation along the dyn-quan group
                     //  to use i8 multiplier for int8 weight
@@ -1005,7 +1005,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
         #if NUM_LOOP_IN_DYN_QUAN_GROUP > 1
             if (ni % NUM_LOOP_IN_DYN_QUAN_GROUP == 0) {
                 unroll_for (uint bi = 0; bi < TILE_B; ++bi) {
-                    de_quantize_scale[bi] = quan_var[scale_offset * 2];
+                    de_quantize_scale[bi] = TO_INPUT0_TYPE(quan_var[scale_offset * 2]);
                     #if COMPRESSED_WEIGHTS_INT8
                         activation_sum[bi] = quan_var[scale_offset * 2 + 1];
                     #endif
@@ -1196,7 +1196,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
                         #endif
 
                         #if COMPRESSED_WEIGHTS_INT8
-                            ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * (convert_float)(activation_sum[bi]));
+                            ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * activation_sum[bi]);
                             ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += (convert_half)(convert_float(modified_calc_buff) * (float)ds * (float)de_quantize_scale[bi]);
                         #else
                             ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += convert_half(((int *)(&acc_tmp[fi]))[bi]) * ds * de_quantize_scale[bi];
@@ -1223,7 +1223,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
                         #endif
 
                         #if COMPRESSED_WEIGHTS_INT8
-                            ACCUM_DQ_TYPE modified_calc_buff = ((int *)(&acc_tmp[fi]))[bi] - ((float)(wei_zp[fi]) * (convert_float)(activation_sum[bi]));
+                            ACCUM_DQ_TYPE modified_calc_buff = ((float)((int *)(&acc_tmp[fi]))[bi]) - ((float)(wei_zp[fi]) * activation_sum[bi]);
                             ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += (convert_half)(convert_float(modified_calc_buff) * (float)ds * (float)de_quantize_scale[bi]);
                         #else
                             ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] += convert_half(((int *)(&acc_tmp[fi]))[bi]) * ds * de_quantize_scale[bi];
@@ -1366,7 +1366,7 @@ KERNEL(fc)(
 #endif
 #if DYNAMIC_QUANTIZE
     , __global DQ_TYPE* quantized_input
-    , __global INPUT0_TYPE* quan_var
+    , __global float* quan_var
 #endif
 ) {
 #if USE_SLM
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
index e80e7fff1730d8..55f178b3016a8f 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
+++ b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
@@ -193,18 +193,6 @@ static bool should_dynamic_quantize(const fully_connected_params& params, bool p
     return false;
 }
 
-static size_t get_match_vector_size(const fully_connected_params& params) {
-    auto block_sizes = { 8, 4, 2 };
-
-    for (auto block_size : block_sizes) {
-        if (((params.inputs[0].X().v * params.inputs[0].Y().v) / simd) % block_size == 0) {
-            return block_size;
-        }
-    }
-
-    return 1;
-}
-
 static bool is_weight_vertical(const fully_connected_params& params, size_t output_f) {
     size_t min_num_threads = params.engineInfo.computeUnitsCount * simd;
     GPU_DEBUG_TRACE_DETAIL << "out_ofm (== weight N dim) size " << output_f << " is small compared to the available threads. "
diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
index f947ba10bf89f6..7888f80e34c56d 100644
--- a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
+++ b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
@@ -4210,10 +4210,6 @@ TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_32_
     this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 320, 4096, 4096, 32, 32, true);
 }
 
-TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_32_large_unaligned) {
-    this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 310, 1024, 1024, 32, 32, true);
-}
-
 TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_128_small) {
     this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 16, 1024, 1024, 128, 128, true);
 }
@@ -4223,27 +4219,35 @@ TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_128
 }
 
 // Test per-token dyn-quan
-TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_32) {
-    this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, 32, 32, true);
+TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_test_no) {
+    this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 600, 1024, 2048, 0, 32, true);
+}
+
+TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_test_32) {
+    this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 600, 1024, 2048, 32, 32, true);
+}
+
+TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_test_fake_per_token) {
+    this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 600, 1024, 2048, -1, 32, true);
 }
 
-TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_fake_per_token) {
-    this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, -1, 32, true);
+TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_test_per_token) {
+    this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 600, 1024, 2048, -1, 1024, true);
 }
 
-TEST_F(fully_connected_gpu_tests, compressed_int4_scale_dynamic_quantize_wzp_test_per_token) {
-    this->test_compressed_int4_scale_dyn_quan_weight_i4(true, 640, 1024, 2048, -1, 1024, true);
+TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_test_no) {
+    this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 600, 1024, 2048, 0, 32, true);
 }
 
-TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_32) {
-    this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 640, 1024, 2048, 32, 32, true);
+TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_test_32) {
+    this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 600, 1024, 2048, 32, 32, true);
 }
 
-TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_per_token_small_scale) {
-    this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 640, 1024, 2048, -1, 32, true);
+TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_test_per_token_small_scale) {
+    this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 600, 1024, 2048, -1, 32, true);
 }
 
-TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_wzp_test_per_token_full_scale) {
+TEST_F(fully_connected_gpu_tests, compressed_int8_scale_dynamic_quantize_test_per_token_full_scale) {
     this->test_compressed_int8_scale_dyn_quan_weight_u8(true, 600, 1024, 2048, -1, 1024, true);
 }
 

From 75614fdbdfb7852b42dce92e96219463dee517d4 Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Tue, 10 Dec 2024 18:40:07 +0900
Subject: [PATCH 09/16] [GPU] Resolve unit-tests failure

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../tests/unit/test_cases/fully_connected_gpu_test.cpp         | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
index 7888f80e34c56d..1130526d425eb6 100644
--- a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
+++ b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
@@ -3030,8 +3030,7 @@ class fully_connected_gpu_tests: public ::testing::Test {
 
             auto config = get_test_default_config(engine);
             config.set_property(ov::intel_gpu::allow_new_shape_infer(true));
-            // ov::intel_gpu::ImplementationDesc fc_impl_desc = { format::bfyx, "fully_connected_gpu_bf_tiled", impl_types::ocl };
-            ov::intel_gpu::ImplementationDesc fc_impl_desc = { format::bfyx, "fully_connected_gpu_bfyx_ref", impl_types::ocl };
+            ov::intel_gpu::ImplementationDesc fc_impl_desc = { format::bfyx, "fully_connected_gpu_bf_tiled", impl_types::ocl };
             config.set_property(ov::intel_gpu::force_implementations(ov::intel_gpu::ImplForcingMap{ {"fc_prim", fc_impl_desc} }));
             config.set_user_property(ov::hint::dynamic_quantization_group_size(0));
 

From 1b47bbb16539ee05a42902dfb3e4abea4c559d0a Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Tue, 10 Dec 2024 20:24:37 +0900
Subject: [PATCH 10/16] [GPU] Fix unit-test failure

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../tests/unit/test_cases/fully_connected_gpu_test.cpp       | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
index 1130526d425eb6..6b87ff3f1aec8f 100644
--- a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
+++ b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
@@ -3066,8 +3066,9 @@ class fully_connected_gpu_tests: public ::testing::Test {
             auto inst = network->get_primitive("fc_prim");
             auto impl = inst->get_impl();
             ASSERT_TRUE(impl != NULL);
-            auto kernel_num = (is_dynamic) ? 3 : 2;
-            kernel_num = (quantize_group_size < 32) ? ((quantize_group_size != -1) ? 2 : kernel_num) : kernel_num;
+            // For UINT8 weight, SLM kernel (no dyn-quan) would not be selected
+            auto kernel_num = (is_dynamic) ? 3 : 1;
+            kernel_num = (quantize_group_size < 32) ? ((quantize_group_size != -1) ? 1 : kernel_num) : kernel_num;
             ASSERT_EQ(impl->get_kernels().size(), size_t(kernel_num));
         }
 

From aafb6cf0d9e3cec28cdec99bec63c4a2a6011e79 Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Tue, 10 Dec 2024 21:50:59 +0900
Subject: [PATCH 11/16] [GPU] Remove debugging code in unit-tests

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../unit/test_cases/fully_connected_gpu_test.cpp   | 14 ++++++--------
 1 file changed, 6 insertions(+), 8 deletions(-)

diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
index 6b87ff3f1aec8f..1ba2d8e68db36e 100644
--- a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
+++ b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
@@ -2965,11 +2965,10 @@ class fully_connected_gpu_tests: public ::testing::Test {
                 max_diff = abs_diff;
             avg += abs_diff;
             count++;
-            // OPENVINO_ASSERT(abs_diff < 6);
+            OPENVINO_ASSERT(abs_diff < 6);
         }
-        // GPU_DEBUG_LOG << "---> count: " << count << ", max_diff:" << max_diff << ", avg_diff: " << (avg/count) << std::endl;
-        // OPENVINO_ASSERT((avg/count) < 0.5);
-        std::cout << "---> count: " << count << ", max_diff:" << max_diff << ", avg_diff: " << (avg/count) << std::endl;
+        GPU_DEBUG_LOG << "---> count: " << count << ", max_diff:" << max_diff << ", avg_diff: " << (avg/count) << std::endl;
+        OPENVINO_ASSERT((avg/count) < 0.5);
     }
 
     void test_compressed_int8_scale_dyn_quan_weight_u8(bool is_dynamic, int batch = 1, int ifm = 512, int ofm = 2048,
@@ -3093,11 +3092,10 @@ class fully_connected_gpu_tests: public ::testing::Test {
                 max_diff = abs_diff;
             avg += abs_diff;
             count++;
-            // OPENVINO_ASSERT(abs_diff < 8);
+            OPENVINO_ASSERT(abs_diff < 8);
         }
-        // GPU_DEBUG_LOG << "---> count: " << count << ", max_diff:" << max_diff << ", avg_diff: " << (avg/count) << std::endl;
-        //OPENVINO_ASSERT((avg/count) < 0.8);
-        std::cout << "---> count: " << count << ", max_diff:" << max_diff << ", avg_diff: " << (avg/count) << std::endl;
+        GPU_DEBUG_LOG << "---> count: " << count << ", max_diff:" << max_diff << ", avg_diff: " << (avg/count) << std::endl;
+        OPENVINO_ASSERT((avg/count) < 0.8);
     }
 };
 

From 30442a1933e177f4aca1434ac01067f2780398c1 Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Thu, 12 Dec 2024 02:32:31 +0900
Subject: [PATCH 12/16] [GPU] Applied comments

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../fully_connected_gpu_bf_tiled.cl           | 10 ++---
 .../fully_connected_kernel_bf_tiled.cpp       | 43 ++++++++-----------
 .../test_cases/fully_connected_gpu_test.cpp   |  8 ++--
 3 files changed, 27 insertions(+), 34 deletions(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
index 613544f510d1c3..0fe2c554981306 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
+++ b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
@@ -17,8 +17,6 @@
 // DISPATCH_FSV - output coordinates for each sub-group are calculated from linearized coordinates
 // DISPATCH_BSV   as if they laid in bs_fs_bsv_fsv format, these macros describe fsv and bsv factors;
 
-#define QUAN_BLOCK_SIZE INPUT_LOAD_SIZE
-
 #if FC_KERNEL_DYNAMIC_QUANTIZE
 KERNEL(quantize_input)(
     const __global INPUT0_TYPE* input,
@@ -28,9 +26,9 @@ KERNEL(quantize_input)(
     const uint offset = get_global_id(0);
 
     const uint input_offset = offset * QUANTIZE_GROUP_SIZE;
-    const uint quantize_block = QUANTIZE_GROUP_SIZE / QUAN_BLOCK_SIZE;
-    MAKE_VECTOR_TYPE(INPUT0_TYPE, QUAN_BLOCK_SIZE) input_0;
-    MAKE_VECTOR_TYPE(DQ_TYPE, QUAN_BLOCK_SIZE) quantized_value;
+    const uint quantize_block = QUANTIZE_GROUP_SIZE / INPUT_LOAD_SIZE;
+    MAKE_VECTOR_TYPE(INPUT0_TYPE, INPUT_LOAD_SIZE) input_0;
+    MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE) quantized_value;
     INPUT0_TYPE  max[quantize_block];
 
     unroll_for (uint i = 0 ; i < quantize_block ; ++i) {
@@ -52,7 +50,7 @@ KERNEL(quantize_input)(
     for (uint i = 0 ; i < quantize_block ; ++i) {
         input_0 = vload4(0, &input[input_offset + i * 4]);
         float4 buff = convert_float4(input_0) / quan_scale;
-        quantized_value = CAT(CAT(convert_, MAKE_VECTOR_TYPE(DQ_TYPE, QUAN_BLOCK_SIZE)), _rte)(buff);
+        quantized_value = CAT(CAT(convert_, MAKE_VECTOR_TYPE(DQ_TYPE, INPUT_LOAD_SIZE)), _rte)(buff);
         #if COMPRESSED_WEIGHTS_INT8
             quantized_sum += quantized_value[0] + quantized_value[1] + quantized_value[2] + quantized_value[3];
         #endif
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
index 55f178b3016a8f..1b194a0a99b47a 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
+++ b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
@@ -11,7 +11,7 @@
 
 static constexpr size_t lws_batches = 8;
 static constexpr size_t simd = 16;
-static constexpr size_t act_load_size = 4;
+static constexpr size_t input_load_size = 4;
 static constexpr size_t min_quantize_grp_size = (simd * 2); // SIMD * (min value of tile_ifm)
 static constexpr size_t min_slm_size = 256;
 static std::vector<size_t> available_quantize_grp_size = {128, 64, 32};
@@ -85,7 +85,7 @@ static bool is_per_token_dynamic_quantize(const fully_connected_params& params)
  }
 
 // DYNAMIC_QUANTIZE
-static size_t get_dynamic_quantize_group_size(const fully_connected_params& params, bool print_log = false) {
+static size_t get_dynamic_quantize_group_size(const fully_connected_params& params) {
     auto dynamic_quantization_group_size = params.dynamic_quantization_group_size;
 
     GPU_DEBUG_GET_INSTANCE(debug_config);
@@ -122,7 +122,7 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
 
             // For int8 ASYM model, activation_sum should fit to weight zp
             if (is_dyn_quan_8bit_asym(params) && params.has_decompression_zp == true &&
-                dynamic_quantization_group_size > zp_group_size && (zp_group_size % act_load_size) == 0) {
+                dynamic_quantization_group_size > zp_group_size && (zp_group_size % input_load_size) == 0) {
                 dynamic_quantization_group_size = zp_group_size;
             }
 
@@ -140,10 +140,8 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
             dynamic_quantization_group_size = group_size;
 
             if (dynamic_quantization_group_size > scale_group_size) {
-                if (print_log) {
-                    GPU_DEBUG_TRACE_DETAIL << " Scale group size " << scale_group_size << " is smaller than FC dyn-quan group size "
-                                            << dynamic_quantization_group_size << ". Reduce FC dyn-quan group size to scale size." << std::endl;
-                }
+                GPU_DEBUG_TRACE_DETAIL << " Scale group size " << scale_group_size << " is smaller than FC dyn-quan group size "
+                                        << dynamic_quantization_group_size << ". Reduce FC dyn-quan group size to scale size." << std::endl;
                 dynamic_quantization_group_size = scale_group_size;
             }
 
@@ -154,8 +152,8 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
     return 0;
 }
 
-static bool should_dynamic_quantize(const fully_connected_params& params, bool print_log = false) {
-    size_t dynamic_quantization_group_size = get_dynamic_quantize_group_size(params, print_log);
+static bool should_dynamic_quantize(const fully_connected_params& params) {
+    size_t dynamic_quantization_group_size = get_dynamic_quantize_group_size(params);
 
     if (params.inputs[0].GetFirstElementOffset() != 0)
         return false;
@@ -177,16 +175,14 @@ static bool should_dynamic_quantize(const fully_connected_params& params, bool p
     if ((scale_group_size % simd == 0) && (input_f % dynamic_quantization_group_size == 0) &&
         (params.is_shape_agnostic || (params.inputs[0].Batch().v > 1 && input_b > min_slm_size)) &&
         params.inputs[0].GetDType() == Datatype::F16 && is_weight_dyn_quantizable(params)) {
-        if (print_log) {
-            GPU_DEBUG_TRACE_DETAIL << " Dynamic quantizing for FC : scale_group_size: " << scale_group_size <<
-                ", Dyn-quan group size: " << dynamic_quantization_group_size <<
-                ", Type(I:" << kernel_selector::toString(params.inputs[0].GetDType()) <<
-                ", O:" << kernel_selector::toString(params.outputs[0].GetDType()) <<
-                ", W:" << kernel_selector::toString(params.weights.GetDType()) <<
-                "), Format(W:" << kernel_selector::toString(params.weights.GetLayout()) <<
-                ") B: " << params.inputs[0].Batch().v << ", F: " << params.inputs[0].Feature().v <<
-                ", Y: " << params.inputs[0].Y().v << std ::endl;
-        }
+        GPU_DEBUG_TRACE_DETAIL << " Dynamic quantizing for FC : scale_group_size: " << scale_group_size <<
+            ", Dyn-quan group size: " << dynamic_quantization_group_size <<
+            ", Type(I:" << kernel_selector::toString(params.inputs[0].GetDType()) <<
+            ", O:" << kernel_selector::toString(params.outputs[0].GetDType()) <<
+            ", W:" << kernel_selector::toString(params.weights.GetDType()) <<
+            "), Format(W:" << kernel_selector::toString(params.weights.GetLayout()) <<
+            ") B: " << params.inputs[0].Batch().v << ", F: " << params.inputs[0].Feature().v <<
+            ", Y: " << params.inputs[0].Y().v << std ::endl;
         return true;
     }
 
@@ -752,7 +748,7 @@ JitConstants FullyConnected_bf_tiled::GetJitConstants(const fully_connected_para
     }
 
     // Validated perf gain, Dynamic quantize force enable SCALE_POST_OP for char type multiplication
-    if (should_dynamic_quantize(params, true)) {
+    if (should_dynamic_quantize(params)) {
         jit.AddConstant(MakeJitConstant("DYNAMIC_QUANTIZE", 1));
         jit.AddConstant(MakeJitConstant("DQ_DECOMPRESSION_SCALE_POST_OP", 1));
         jit.AddConstant(MakeJitConstant("QUANTIZE_GROUP_SIZE", quantize_grp_size));
@@ -763,7 +759,7 @@ JitConstants FullyConnected_bf_tiled::GetJitConstants(const fully_connected_para
         jit.AddConstant(MakeJitConstant("QUANTIZE_GROUP_SIZE", min_quantize_grp_size));
     }
 
-    jit.AddConstant(MakeJitConstant("INPUT_LOAD_SIZE", act_load_size));
+    jit.AddConstant(MakeJitConstant("INPUT_LOAD_SIZE", input_load_size));
     jit.AddConstant(MakeJitConstant("DQ_TYPE", "char"));
     jit.AddConstant(MakeJitConstant("IFM_SIZE", get_input_bf_size(params).second));
     jit.AddConstant(MakeJitConstant("SIMD", simd));
@@ -896,7 +892,7 @@ void FullyConnected_bf_tiled::GetUpdateDispatchDataFunc(KernelData& kd) const {
                     size_t input_f = get_input_bf_size(prim_params).second;
                     size_t input_size = input_f * dispatchData.tile_m * dispatchData.gws[2];
                     OPENVINO_ASSERT(quantize_grp_size != 0, "Error: quantize_grp_size is zero.");
-                    size_t quan_var_size = (input_size / quantize_grp_size) * 4 * 2;
+                    size_t quan_var_size = (input_size / quantize_grp_size) * sizeof(float) * 2;
 
                     if (kd.internalBufferSizes[0] < input_size ||
                         kd.internalBufferSizes[1] < quan_var_size) {
@@ -907,7 +903,6 @@ void FullyConnected_bf_tiled::GetUpdateDispatchDataFunc(KernelData& kd) const {
                         kd.internalBufferSizes.push_back(quan_var_size);
                     }
 
-                    OPENVINO_ASSERT(quantize_grp_size != 0, "Error: quantize_grp_size is zero.");
                     kd.kernels[0].params.workGroups.global = {(std::max((input_size / quantize_grp_size), (size_t)1)), 1, 1};
                     kd.kernels[0].params.workGroups.local = {1, 1, 1};
                 }
@@ -1118,7 +1113,7 @@ KernelsData FullyConnected_bf_tiled::GetMultiKernelsData(const Params &params,
         // char type quantized input
         kd.internalBufferSizes.push_back(input_size);
         // float type of de_quan_scale and activation sum for each quantized group
-        kd.internalBufferSizes.push_back(input_size / quantize_grp_size * 4 * 2);
+        kd.internalBufferSizes.push_back((input_size / quantize_grp_size) * sizeof(float) * 2);
         kernel_number++;
     }
     // kd.internalBufferDataType = Datatype::F16;
diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
index 1ba2d8e68db36e..4c729e8728473f 100644
--- a/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
+++ b/src/plugins/intel_gpu/tests/unit/test_cases/fully_connected_gpu_test.cpp
@@ -2846,7 +2846,7 @@ class fully_connected_gpu_tests: public ::testing::Test {
     }
 
     void test_compressed_int4_scale_dyn_quan_weight_i4(bool is_dynamic, int batch = 1, int ifm = 512, int ofm = 2048,
-                                                        int quantize_group_size = 32, int scales_group_size = 128,
+                                                        size_t quantize_group_size = 32, int scales_group_size = 128,
                                                         bool is_wzp_test = false, bool is_wzp_scalar = false) {
         tests::random_generator rg(GET_SUITE_NAME);
         auto& engine = get_test_engine();
@@ -2940,7 +2940,7 @@ class fully_connected_gpu_tests: public ::testing::Test {
             auto impl = inst->get_impl();
             ASSERT_TRUE(impl != NULL);
             auto kernel_num = (is_dynamic) ? 3 : 2;
-            kernel_num = (quantize_group_size < 32) ? ((quantize_group_size != -1) ? 2 : kernel_num) : kernel_num;
+            kernel_num = (quantize_group_size < 32) ? 2 : kernel_num;
             ASSERT_EQ(impl->get_kernels().size(), size_t(kernel_num));
         }
 
@@ -2972,7 +2972,7 @@ class fully_connected_gpu_tests: public ::testing::Test {
     }
 
     void test_compressed_int8_scale_dyn_quan_weight_u8(bool is_dynamic, int batch = 1, int ifm = 512, int ofm = 2048,
-                                                        int quantize_group_size = 32, int scales_group_size = 128,
+                                                        size_t quantize_group_size = 32, int scales_group_size = 128,
                                                         bool is_wzp_test = false, bool is_wzp_scalar = false) {
         tests::random_generator rg(GET_SUITE_NAME);
         auto& engine = get_test_engine();
@@ -3067,7 +3067,7 @@ class fully_connected_gpu_tests: public ::testing::Test {
             ASSERT_TRUE(impl != NULL);
             // For UINT8 weight, SLM kernel (no dyn-quan) would not be selected
             auto kernel_num = (is_dynamic) ? 3 : 1;
-            kernel_num = (quantize_group_size < 32) ? ((quantize_group_size != -1) ? 1 : kernel_num) : kernel_num;
+            kernel_num = (quantize_group_size < 32) ? 1 : kernel_num;
             ASSERT_EQ(impl->get_kernels().size(), size_t(kernel_num));
         }
 

From d83debc7bc0c0aebf6616f3d8242381feed2fc8a Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Thu, 12 Dec 2024 19:37:29 +0900
Subject: [PATCH 13/16] [GPU] Revert quantizing variable data-type

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../cl_kernels/fully_connected_gpu_bf_tiled.cl   | 16 ++++++++--------
 .../fully_connected_kernel_bf_tiled.cpp          |  9 ++++-----
 2 files changed, 12 insertions(+), 13 deletions(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
index 0fe2c554981306..b706b6d3250c86 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
+++ b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
@@ -21,7 +21,7 @@
 KERNEL(quantize_input)(
     const __global INPUT0_TYPE* input,
     __global DQ_TYPE* quantized_input,
-    __global float* quan_var
+    __global INPUT0_TYPE* quan_var
 ) {
     const uint offset = get_global_id(0);
 
@@ -58,9 +58,9 @@ KERNEL(quantize_input)(
     }
 
     // Pair of quantizing_scale and quantized activation_sum for each group
-    quan_var[offset * 2] = quan_scale;
+    quan_var[offset * 2] = CAT(CAT(convert_, INPUT0_TYPE), _rte)(quan_scale);
     #if COMPRESSED_WEIGHTS_INT8
-        quan_var[(offset * 2) + 1] = CAT(CAT(convert_, float), _rte)(quantized_sum);
+        quan_var[(offset * 2) + 1] = CAT(CAT(convert_, INPUT0_TYPE), _rte)(quantized_sum);
     #endif
 }
 #else  // !FC_KERNEL_DYNAMIC_QUANTIZE
@@ -836,7 +836,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
     OPTIONAL_SHAPE_INFO_ARG
     const __global INPUT0_TYPE* input,
     __global DQ_TYPE* quantized_input,
-    __global float* quan_var,  // pair of params for each quantizing group : scale, activation_sum
+    __global INPUT0_TYPE* quan_var,  // pair of params for each quantizing group : scale, activation_sum
 #if DECOMPRESSION_SCALE_TERM
     const __global DECOMPRESSION_SCALE_TYPE* decompression_scale,
 #endif
@@ -913,7 +913,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
     INPUT0_TYPE                                     de_quantize_scale[TILE_B];
 
     #if COMPRESSED_WEIGHTS_INT8
-        float activation_sum[TILE_B] = { };
+        INPUT0_TYPE activation_sum[TILE_B] = { };
     #endif
 
     #if COMPRESSED_WEIGHTS && DECOMPRESSION_SCALE_GROUPS_NUM == 1
@@ -993,8 +993,8 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
                 #if COMPRESSED_WEIGHTS_INT8
                     // Need additional accumulation of quantized activation along the dyn-quan group
                     //  to use i8 multiplier for int8 weight
-                    activation_sum[bi * 2] = quan_var[scale_offset * 2 + 1];
-                    activation_sum[bi * 2 + 1] = quan_var[scale_offset * 2 + 1 + scale_pitch * 2];
+                    activation_sum[bi * 2] = TO_INPUT0_TYPE(quan_var[scale_offset * 2 + 1]);
+                    activation_sum[bi * 2 + 1] = TO_INPUT0_TYPE(quan_var[scale_offset * 2 + 1 + scale_pitch * 2]);
                 #endif
                 scale_offset += (scale_pitch * 2);
             #endif
@@ -1364,7 +1364,7 @@ KERNEL(fc)(
 #endif
 #if DYNAMIC_QUANTIZE
     , __global DQ_TYPE* quantized_input
-    , __global float* quan_var
+    , __global INPUT0_TYPE* quan_var
 #endif
 ) {
 #if USE_SLM
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
index 1b194a0a99b47a..8141b0e013b68a 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
+++ b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
@@ -126,9 +126,9 @@ static size_t get_dynamic_quantize_group_size(const fully_connected_params& para
                 dynamic_quantization_group_size = zp_group_size;
             }
 
-            GPU_DEBUG_TRACE_DETAIL << "FC dyn-quantize by per-token. Actual dyn_quan_group_size(" << dynamic_quantization_group_size
-                                    << ") : From scale_group_size (" << scale_group_size << ", zp_group_size("  << zp_group_size
-                                    << "), zp_group_num(" << zp_group_num << "), ifm_size (" << get_input_bf_size(params).second << ")" << std::endl;
+            GPU_DEBUG_LOG << "FC dyn-quantize by per-token. Actual dyn_quan_group_size(" << dynamic_quantization_group_size
+                            << ") : From scale_group_size (" << scale_group_size << ", zp_group_size("  << zp_group_size
+                            << "), zp_group_num(" << zp_group_num << "), ifm_size (" << get_input_bf_size(params).second << ")" << std::endl;
             return (size_t)dynamic_quantization_group_size;
         }
     }
@@ -1116,8 +1116,7 @@ KernelsData FullyConnected_bf_tiled::GetMultiKernelsData(const Params &params,
         kd.internalBufferSizes.push_back((input_size / quantize_grp_size) * sizeof(float) * 2);
         kernel_number++;
     }
-    // kd.internalBufferDataType = Datatype::F16;
-    kd.internalBufferDataType = Datatype::F32;
+    kd.internalBufferDataType = Datatype::F16;
 
     // FC kernel for dynamic quantized input with KernelType::DEFAULT
     {

From 33e33de990ba90d107648b565956a643d59d7eab Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Fri, 13 Dec 2024 16:43:39 +0900
Subject: [PATCH 14/16] [GPU] Add optimization for per-token to reduce
 calculation

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../fully_connected_gpu_bf_tiled.cl           | 40 +++++++++++++++----
 .../fully_connected_kernel_bf_tiled.cpp       |  5 +++
 2 files changed, 38 insertions(+), 7 deletions(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
index b706b6d3250c86..cf127540073f9a 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
+++ b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
@@ -969,10 +969,22 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
     // Main computation loop
     const uint iterations = MAIN_LOOP_ELEMENTS_COUNT / TILE_IFM_ELEMENTS_SIZE;  // TILE_IFM_ELEMENTS_SIZE : (TILE_IFM * SIMD)
     // Each sub-group loads 2 Batch 
-    uint idx_sglid = (sglid * TILE_K) % TILE_IFM_ELEMENTS_SIZE;       // same index for sglid 0~7 : to tile_k direction
-    uint batch_sglid = (sglid * TILE_K) / TILE_IFM_ELEMENTS_SIZE;     // 0 to 1 : to batch direction
-
+    const uint idx_sglid = (sglid * TILE_K) % TILE_IFM_ELEMENTS_SIZE;       // same index for sglid 0~7 : to tile_k direction
+    const uint batch_sglid = (sglid * TILE_K) / TILE_IFM_ELEMENTS_SIZE;     // 0 to 1 : to batch direction
     const uint scale_pitch = (TILE_IN_B_PITCH / QUANTIZE_GROUP_SIZE);
+
+    #if PER_TOKEN_SIZE_DYN_QUANTIZE
+        // Each token is quantized by once. So, all MAIN_LOOP_ELEMENTS_COUNT share just one quantizing variable
+        uint per_token_offset = input_offset / QUANTIZE_GROUP_SIZE;
+        unroll_for (uint bi = 0; bi < TILE_B; ++bi) {
+            de_quantize_scale[bi] = TO_INPUT0_TYPE(quan_var[per_token_offset * 2]);
+            #if COMPRESSED_WEIGHTS_INT8
+                activation_sum[bi] = TO_INPUT0_TYPE(quan_var[per_token_offset * 2 + 1]);
+            #endif
+            per_token_offset += scale_pitch;
+        }
+    #endif
+
     MAKE_VECTOR_TYPE(int, TILE_B) acc_tmp[TILE_OFM] = { };
     __attribute__((opencl_unroll_hint(1)))
     for (uint ni = 0; ni < iterations; ++ni) {
@@ -987,7 +999,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
             // Next batch
             in_offset += (TILE_IN_B_PITCH * 2);
 
-            #if NUM_LOOP_IN_DYN_QUAN_GROUP == 1
+            #if (PER_TOKEN_SIZE_DYN_QUANTIZE == 0) && (NUM_LOOP_IN_DYN_QUAN_GROUP == 1)
                 de_quantize_scale[bi * 2] = TO_INPUT0_TYPE(quan_var[scale_offset * 2]);
                 de_quantize_scale[bi * 2 + 1] = TO_INPUT0_TYPE(quan_var[scale_offset * 2 + scale_pitch * 2]);
                 #if COMPRESSED_WEIGHTS_INT8
@@ -1000,12 +1012,12 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
             #endif
         }
 
-        #if NUM_LOOP_IN_DYN_QUAN_GROUP > 1
+        #if (PER_TOKEN_SIZE_DYN_QUANTIZE == 0) && (NUM_LOOP_IN_DYN_QUAN_GROUP > 1)
             if (ni % NUM_LOOP_IN_DYN_QUAN_GROUP == 0) {
                 unroll_for (uint bi = 0; bi < TILE_B; ++bi) {
                     de_quantize_scale[bi] = TO_INPUT0_TYPE(quan_var[scale_offset * 2]);
                     #if COMPRESSED_WEIGHTS_INT8
-                        activation_sum[bi] = quan_var[scale_offset * 2 + 1];
+                        activation_sum[bi] = TO_INPUT0_TYPE(quan_var[scale_offset * 2 + 1]);
                     #endif
                     scale_offset += scale_pitch;
                 }
@@ -1205,7 +1217,7 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
             #endif
         }  // Whole tile_k elements of each iteration : ki
 
-        #if DQ_DECOMPRESSION_SCALE_POST_OP && (TILE_IFM_ELEMENTS_SIZE <= DECOMPRESSION_SCALE_GROUP_SIZE)
+        #if (PER_TOKEN_SIZE_DYN_QUANTIZE == 0) && DQ_DECOMPRESSION_SCALE_POST_OP && (TILE_IFM_ELEMENTS_SIZE <= DECOMPRESSION_SCALE_GROUP_SIZE)
             // Dynamic-quantizing group size set to same or smaller than scale group size
             if ((ni % NUM_LOOP_IN_DYN_QUAN_GROUP) == (NUM_LOOP_IN_DYN_QUAN_GROUP - 1)) {
                 const uint ni_offset = ((ni*TILE_IFM*SIMD) / DECOMPRESSION_SCALE_GROUP_SIZE)*DECOMPRESSION_SCALE_FEATURE_PITCH;
@@ -1233,6 +1245,20 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
         #endif
     }  // Main compute loop : ni
 
+    #if PER_TOKEN_SIZE_DYN_QUANTIZE
+        unroll_for (uint bi = 0; bi < TILE_B; ++bi) {
+            unroll_for(uint fi = 0; fi < TILE_OFM; ++fi) {
+                ACCUMULATOR_TYPE ds = d_scales[fi % DECOMPRESSION_SCALE_LENGTH];
+                #if COMPRESSED_WEIGHTS_INT8
+                    float modified_calc_buff = ((float)((int *)(&acc_tmp[fi]))[bi]) - ((float)(wei_zp[fi]) * activation_sum[bi]);
+                    ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] = (convert_half)(modified_calc_buff) * ds * de_quantize_scale[bi];
+                #else
+                    ((ACCUMULATOR_TYPE*)(&acc[bi]))[fi] = convert_half(((int *)(&acc_tmp[fi]))[bi]) * ds * de_quantize_scale[bi];
+                #endif
+            }
+        }
+    #endif
+
     // =====================================================================================================================================
     // Post-processing: bias, activation, fused-ops
     for (uint bi = 0; bi < TILE_B; ++bi) {
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
index 8141b0e013b68a..b9e5b7172d6170 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
+++ b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
@@ -752,6 +752,11 @@ JitConstants FullyConnected_bf_tiled::GetJitConstants(const fully_connected_para
         jit.AddConstant(MakeJitConstant("DYNAMIC_QUANTIZE", 1));
         jit.AddConstant(MakeJitConstant("DQ_DECOMPRESSION_SCALE_POST_OP", 1));
         jit.AddConstant(MakeJitConstant("QUANTIZE_GROUP_SIZE", quantize_grp_size));
+
+        if(is_per_token_dynamic_quantize(params) && quantize_grp_size == get_input_bf_size(params).second)
+            jit.AddConstant(MakeJitConstant("PER_TOKEN_SIZE_DYN_QUANTIZE", 1));
+        else
+            jit.AddConstant(MakeJitConstant("PER_TOKEN_SIZE_DYN_QUANTIZE", 0));
     } else {
         if (add_decompress_scale_post_op)
             jit.AddConstant(MakeJitConstant("DECOMPRESSION_SCALE_POST_OP", 1));

From 1323729aa2f61db4d5d8ba49d37c455a26bb56c5 Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Sat, 14 Dec 2024 07:34:01 +0900
Subject: [PATCH 15/16] [GPU] fix cpplint

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
index b9e5b7172d6170..c5d2373cb97d0f 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
+++ b/src/plugins/intel_gpu/src/kernel_selector/kernels/fully_connected/fully_connected_kernel_bf_tiled.cpp
@@ -753,7 +753,7 @@ JitConstants FullyConnected_bf_tiled::GetJitConstants(const fully_connected_para
         jit.AddConstant(MakeJitConstant("DQ_DECOMPRESSION_SCALE_POST_OP", 1));
         jit.AddConstant(MakeJitConstant("QUANTIZE_GROUP_SIZE", quantize_grp_size));
 
-        if(is_per_token_dynamic_quantize(params) && quantize_grp_size == get_input_bf_size(params).second)
+        if (is_per_token_dynamic_quantize(params) && quantize_grp_size == get_input_bf_size(params).second)
             jit.AddConstant(MakeJitConstant("PER_TOKEN_SIZE_DYN_QUANTIZE", 1));
         else
             jit.AddConstant(MakeJitConstant("PER_TOKEN_SIZE_DYN_QUANTIZE", 0));

From 227d9a1257b45eb035a3d8a41c821440ebf68f7a Mon Sep 17 00:00:00 2001
From: "Min, Byungil" <byungil.min@intel.com>
Date: Mon, 16 Dec 2024 00:38:41 +0900
Subject: [PATCH 16/16] [GPU] Fix unit-tests failure

Signed-off-by: Min, Byungil <byungil.min@intel.com>
---
 .../fully_connected_gpu_bf_tiled.cl           | 30 +++++++++----------
 1 file changed, 15 insertions(+), 15 deletions(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
index cf127540073f9a..7e2e788daca4e5 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
+++ b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/fully_connected_gpu_bf_tiled.cl
@@ -985,6 +985,21 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
         }
     #endif
 
+    #if COMPRESSED_WEIGHTS_INT8
+        ACCUMULATOR_TYPE wei_zp[TILE_OFM] = { };
+        unroll_for(uint fi = 0; fi < TILE_OFM; ++fi) {
+            #if DECOMPRESSION_ZP_TERM
+                #if DECOMPRESSION_ZP_SCALAR
+                    wei_zp[fi] = (TO_ACCUMULATOR_TYPE)(DECOMPRESSION_ZP_VALUE);
+                #elif DECOMPRESSION_ZP_GROUPS_NUM == 1
+                    wei_zp[fi] = TO_ACCUMULATOR_TYPE(d_zps[fi % DECOMPRESSION_ZP_LENGTH]);
+                #endif
+            #else
+                wei_zp[fi] = ACCUMULATOR_VAL_ZERO;
+            #endif
+        }
+    #endif
+
     MAKE_VECTOR_TYPE(int, TILE_B) acc_tmp[TILE_OFM] = { };
     __attribute__((opencl_unroll_hint(1)))
     for (uint ni = 0; ni < iterations; ++ni) {
@@ -1051,21 +1066,6 @@ inline void FUNC(fc_bf_tiled_kernel_dyn_quan)(
         #endif
         uint wei_local_idx = local_id * SIMD * FILTER_LOAD_ITERS * (FILTER_LOAD_BLOCK_SIZE/2) + sglid * 2;
 
-        #if COMPRESSED_WEIGHTS_INT8
-            ACCUMULATOR_TYPE wei_zp[TILE_OFM] = { };
-            unroll_for(uint fi = 0; fi < TILE_OFM; ++fi) {
-                #if DECOMPRESSION_ZP_TERM
-                    #if DECOMPRESSION_ZP_SCALAR
-                        wei_zp[fi] = (TO_ACCUMULATOR_TYPE)(DECOMPRESSION_ZP_VALUE);
-                    #elif DECOMPRESSION_ZP_GROUPS_NUM == 1
-                        wei_zp[fi] = TO_ACCUMULATOR_TYPE(d_zps[fi % DECOMPRESSION_ZP_LENGTH]);
-                    #endif
-                #else
-                    wei_zp[fi] = ACCUMULATOR_VAL_ZERO;
-                #endif
-            }
-        #endif
-
         // DQ_DECOMPRESSION_SCALE_POST_OP SHOULD be enabled for dynamic quantize FC : scale is ACCUMULATOR_VAL_ONE
         unroll_for(uint load_iter = 0; load_iter < FILTER_LOAD_ITERS; ++load_iter) {
             #if COMPRESSED_WEIGHTS_INT4