Arm AArch64: optimized GEMV and GEMM kernels for q4_0_q8_0, and q8_0_…

…q8_0 quantization
ggerganov · Feb 28, 2024 · b8983a0 · b8983a0
1 parent 973053d
commit b8983a0
Show file tree

Hide file tree

Showing 6 changed files with 1,413 additions and 36 deletions.
diff --git a/ggml-impl.h b/ggml-impl.h
@@ -1,3 +1,4 @@
+// SPDX-FileCopyrightText: Copyright 2024 Arm Ltd.
 #pragma once
 
 #include "ggml.h"
@@ -207,6 +208,10 @@ static inline ggml_fp16_t ggml_compute_fp32_to_fp16(float f) {
 
 #endif // __ARM_NEON
 
+#ifdef __ARM_FEATURE_SVE
+#include <arm_sve.h>
+#endif // __ARM_FEATURE_SVE
+
 // precomputed f32 table for f16 (256 KB)
 // defined in ggml.c, initialized in ggml_init()
 extern float ggml_table_f32_f16[1 << 16];