From 61ef97af7b6c68e2f6b238c2426a8748ea1334d6 Mon Sep 17 00:00:00 2001
From: Alexandra Sidorova <alexandra.sidorova@intel.com>
Date: Wed, 29 Mar 2023 12:00:03 +0400
Subject: [PATCH] Added support of custom Plugin ops in Linear IR

---
 .../include/snippets/lowered_expr.hpp         |   2 +
 .../snippets/include/snippets/op/brgemm.hpp   |   2 +
 .../snippets/include/snippets/op/load.hpp     |   3 +
 .../include/snippets/op/memory_access.hpp     |  23 +-
 .../pass/lowered/assign_registers.hpp         |   1 +
 ...et_and_reset.hpp => buffer_allocation.hpp} |  10 +-
 .../pass/lowered/buffer_insertion.hpp         |   1 -
 .../snippets/pass/lowered/loop_init.hpp       |   7 +-
 .../include/snippets/pass/reset_buffer.hpp    |  29 --
 .../snippets/pass/vector_to_scalar.hpp        |  40 --
 .../snippets/include/snippets/utils.hpp       |   4 +-
 src/common/snippets/src/generator.cpp         |  14 +-
 src/common/snippets/src/lowered_expr.cpp      |   8 +-
 src/common/snippets/src/op/brgemm.cpp         |  36 +-
 src/common/snippets/src/op/broadcastload.cpp  |   7 +-
 src/common/snippets/src/op/load.cpp           |  18 +-
 src/common/snippets/src/op/memory_access.cpp  |  80 +++-
 src/common/snippets/src/op/store.cpp          |   9 +-
 src/common/snippets/src/op/subgraph.cpp       |   2 -
 .../snippets/src/pass/insert_buffer.cpp       |  97 -----
 .../snippets/src/pass/insert_load_store.cpp   |  81 ----
 .../load_movebroadcast_to_broadcastload.cpp   |  46 ---
 src/common/snippets/src/pass/loop_fusion.cpp  | 332 -----------------
 .../src/pass/lowered/assign_registers.cpp     |  37 +-
 ...et_and_reset.cpp => buffer_allocation.cpp} |  61 +--
 .../src/pass/lowered/buffer_insertion.cpp     |  73 ++--
 .../src/pass/lowered/insert_tail_loop.cpp     |  20 +-
 .../src/pass/lowered/load_store_insertion.cpp |   8 +-
 .../snippets/src/pass/lowered/loop_init.cpp   |  66 +++-
 .../snippets/src/pass/lowered/loop_markup.cpp |  33 +-
 .../src/pass/lowered/propagate_layout.cpp     |   2 +-
 .../snippets/src/pass/matmul_to_brgemm.cpp    |   3 +
 src/common/snippets/src/pass/reset_buffer.cpp | 114 ------
 .../snippets/src/pass/vector_to_scalar.cpp    |  49 ---
 src/common/snippets/src/utils.cpp             |  21 +-
 .../set_scalar_count_for_load_and_store.cpp   | 122 +++---
 src/common/snippets/tests/src/registers.cpp   | 350 +++++++++---------
 .../src/emitters/jit_snippets_emitters.cpp    |   2 +-
 .../brgemm_to_brgemm_cpu.cpp                  |  10 +-
 .../fuse_load_store_and_convert.cpp           | 113 ------
 .../lowered/fuse_load_store_and_convert.cpp   |   4 +-
 .../op/brgemm_copy_b.cpp                      |   4 +-
 .../op/brgemm_cpu.cpp                         |  24 +-
 43 files changed, 614 insertions(+), 1354 deletions(-)
 rename src/common/snippets/include/snippets/pass/lowered/{buffer_propagate_offset_and_reset.hpp => buffer_allocation.hpp} (56%)
 delete mode 100644 src/common/snippets/include/snippets/pass/reset_buffer.hpp
 delete mode 100644 src/common/snippets/include/snippets/pass/vector_to_scalar.hpp
 delete mode 100644 src/common/snippets/src/pass/insert_buffer.cpp
 delete mode 100644 src/common/snippets/src/pass/insert_load_store.cpp
 delete mode 100644 src/common/snippets/src/pass/load_movebroadcast_to_broadcastload.cpp
 delete mode 100644 src/common/snippets/src/pass/loop_fusion.cpp
 rename src/common/snippets/src/pass/lowered/{buffer_propagate_offset_and_reset.cpp => buffer_allocation.cpp} (56%)
 delete mode 100644 src/common/snippets/src/pass/reset_buffer.cpp
 delete mode 100644 src/common/snippets/src/pass/vector_to_scalar.cpp
 delete mode 100644 src/plugins/intel_cpu/src/snippets_transformations/fuse_load_store_and_convert.cpp

diff --git a/src/common/snippets/include/snippets/lowered_expr.hpp b/src/common/snippets/include/snippets/lowered_expr.hpp
index 82a444b1cd7741..5a5b9ae3c86dde 100644
--- a/src/common/snippets/include/snippets/lowered_expr.hpp
+++ b/src/common/snippets/include/snippets/lowered_expr.hpp
@@ -50,6 +50,7 @@ class LoweredExpr {
     void set_loop_ids(const std::vector<size_t>& loops) { m_loop_ids = loops; }
     void set_loop_id(size_t id, size_t idx);
     void remove_loop_id(size_t id);
+    bool is_outside_loop() const { return m_is_outside_loop; }
 
 protected:
     void replace_input(size_t port, TensorDescriptorPtr to);
@@ -61,6 +62,7 @@ class LoweredExpr {
     RegInfo m_reg_info{{}, {}};
     // The order Loops identifies: Outer ---> Inner
     std::vector<size_t> m_loop_ids;
+    bool m_is_outside_loop = false;
 };
 
 class IOLoweredExpr : public LoweredExpr {
diff --git a/src/common/snippets/include/snippets/op/brgemm.hpp b/src/common/snippets/include/snippets/op/brgemm.hpp
index dbc086144093ff..6d7e08a9d05ffb 100644
--- a/src/common/snippets/include/snippets/op/brgemm.hpp
+++ b/src/common/snippets/include/snippets/op/brgemm.hpp
@@ -34,7 +34,9 @@ class Brgemm : public MemoryAccess {
 
 protected:
     ov::element::Type get_output_type() const;
+    std::vector<ov::PartialShape> get_planar_input_shapes(const std::vector<ov::Output<ov::Node>>& inputs) const;
     ov::PartialShape get_output_partial_shape(const std::vector<ov::PartialShape>& input_shapes) const;
+    ov::PartialShape get_planar_output_shape(const ov::PartialShape& output_shape) const;
 };
 
 } // namespace op
diff --git a/src/common/snippets/include/snippets/op/load.hpp b/src/common/snippets/include/snippets/op/load.hpp
index 38acd0e8a10255..a938b8064f5a04 100644
--- a/src/common/snippets/include/snippets/op/load.hpp
+++ b/src/common/snippets/include/snippets/op/load.hpp
@@ -33,6 +33,9 @@ class Load : public MemoryAccess {
 
     void validate_and_infer_types() override;
     std::shared_ptr<Node> clone_with_new_inputs(const OutputVector& new_args) const override;
+
+protected:
+    void validate_memory_access_params() const;
 };
 
 /**
diff --git a/src/common/snippets/include/snippets/op/memory_access.hpp b/src/common/snippets/include/snippets/op/memory_access.hpp
index 7b090c8f65d528..97f1670a879e26 100644
--- a/src/common/snippets/include/snippets/op/memory_access.hpp
+++ b/src/common/snippets/include/snippets/op/memory_access.hpp
@@ -14,8 +14,8 @@ namespace op {
  * @interface MemoryAccess
  * @brief This is a base class for memory access operations (like Load and Store).
  *        It provides universal interface to manipulate with memory: load/store.
- * @param m_input_ports - vector of input descriptors: variables of PortDescriptor class
- * @param m_output_ports - vector of output descriptors: variables of PortDescriptor class
+ * @param m_input_ports - map of input descriptors: variables of PortDescriptor class
+ * @param m_output_ports - map of output descriptors: variables of PortDescriptor class
  * @ingroup snippets
  */
 
@@ -55,22 +55,33 @@ class MemoryAccess : public ngraph::op::Op {
     size_t get_input_offset(size_t idx = 0) const;
     size_t get_output_offset(size_t idx = 0) const;
 
-    size_t get_input_port_count() const { return m_input_ports.size(); }
-    size_t get_output_port_count() const { return m_output_ports.size(); }
+    std::map<size_t, PortDescriptor> get_memory_access_input_ports() const { return m_input_ports; }
+    std::map<size_t, PortDescriptor> get_memory_access_output_ports() const { return m_output_ports; }
+
+    bool is_memory_access_input_port(size_t idx) const;
+    bool is_memory_access_output_port(size_t idx) const;
+
+    // All input and output ports are MemoryAccess
+    bool is_full_memory_access_op() const;
 
     bool visit_attributes(AttributeVisitor& visitor) override;
 
 protected:
     explicit MemoryAccess(const OutputVector& arguments, size_t input_count = 0, size_t output_count = 0);
+    explicit MemoryAccess(const OutputVector& arguments, const std::set<size_t>& input_ports, const std::set<size_t>& output_ports);
     MemoryAccess() = default;
 
+    // This method can be called only in ctors
+    void ctor_initialize(const std::set<size_t>& input_ports, const std::set<size_t>& output_ports);
+
     void set_input_port_descriptor(const PortDescriptor& desc, const size_t i);
     void set_output_port_descriptor(const PortDescriptor& desc, const size_t i);
     const PortDescriptor& get_input_port_descriptor(const size_t i) const;
     const PortDescriptor& get_output_port_descriptor(const size_t i) const;
 
-    std::vector<PortDescriptor> m_input_ports;
-    std::vector<PortDescriptor> m_output_ports;
+    // [port_num, port_desc]
+    std::map<size_t, PortDescriptor> m_input_ports;
+    std::map<size_t, PortDescriptor> m_output_ports;
 };
 
 } // namespace op
diff --git a/src/common/snippets/include/snippets/pass/lowered/assign_registers.hpp b/src/common/snippets/include/snippets/pass/lowered/assign_registers.hpp
index 93a99b9e8dfbc5..461e688f40df02 100644
--- a/src/common/snippets/include/snippets/pass/lowered/assign_registers.hpp
+++ b/src/common/snippets/include/snippets/pass/lowered/assign_registers.hpp
@@ -5,6 +5,7 @@
 #pragma once
 
 #include "linear_IR_transformation.hpp"
+#include "snippets/generator.hpp"
 
 namespace ngraph {
 namespace snippets {
diff --git a/src/common/snippets/include/snippets/pass/lowered/buffer_propagate_offset_and_reset.hpp b/src/common/snippets/include/snippets/pass/lowered/buffer_allocation.hpp
similarity index 56%
rename from src/common/snippets/include/snippets/pass/lowered/buffer_propagate_offset_and_reset.hpp
rename to src/common/snippets/include/snippets/pass/lowered/buffer_allocation.hpp
index ed4c7feac37707..ff698a435723f3 100644
--- a/src/common/snippets/include/snippets/pass/lowered/buffer_propagate_offset_and_reset.hpp
+++ b/src/common/snippets/include/snippets/pass/lowered/buffer_allocation.hpp
@@ -13,19 +13,17 @@ namespace pass {
 namespace lowered {
 
 /**
- * @interface PropagateOffsetAndResetBuffer
- * @brief Propagates Buffer offsets to connected Load/Store (and other MemoryAccess) operations.
- *        Also, calculates the amount of data stored to the Buffer (via Store inside one or more Loops),
- *        and resets the corresponding pointer (sets negative finalization offset to the outermost LoopEnd).
+ * @interface BufferAllocation
+ * @brief The pass calculation common size of buffer scratchpad and propagates Buffer offsets to connected MemoryAccess operations.
  * @ingroup snippets
  */
 
-class PropagateOffsetAndResetBuffer : public LinearIRTransformation {
+class BufferAllocation : public LinearIRTransformation {
     static void propagate_offset(const LoweredExprIR& linear_ir, const LoweredExprPtr& buffer_expr, size_t offset);
     size_t m_buffer_scratchpad_size = 0;
 
 public:
-    OPENVINO_RTTI("PropagateOffsetAndResetBuffer", "LinearIRTransformation")
+    OPENVINO_RTTI("BufferAllocation", "LinearIRTransformation")
     bool run(LoweredExprIR& linear_ir) override;
     size_t get_scratchpad_size() const {return m_buffer_scratchpad_size;}
 };
diff --git a/src/common/snippets/include/snippets/pass/lowered/buffer_insertion.hpp b/src/common/snippets/include/snippets/pass/lowered/buffer_insertion.hpp
index ee53fda3ff5765..2ae5d0cff69ed0 100644
--- a/src/common/snippets/include/snippets/pass/lowered/buffer_insertion.hpp
+++ b/src/common/snippets/include/snippets/pass/lowered/buffer_insertion.hpp
@@ -34,7 +34,6 @@ class BufferInsertion : public LinearIRTransformation {
                                                   const LoweredExprIR::LoweredLoopManagerPtr& loop_manager,
                                                   const LoweredExprPtr& up_expr, const LoweredExprPtr& down_expr);
 
-
     int32_t m_buffer_allocation_rank;
 };
 
diff --git a/src/common/snippets/include/snippets/pass/lowered/loop_init.hpp b/src/common/snippets/include/snippets/pass/lowered/loop_init.hpp
index 6606c671886dc5..dd1ee46e543e9d 100644
--- a/src/common/snippets/include/snippets/pass/lowered/loop_init.hpp
+++ b/src/common/snippets/include/snippets/pass/lowered/loop_init.hpp
@@ -28,9 +28,14 @@ class LoopInit : public LinearIRTransformation {
     std::vector<int64_t> init_ptr_increments(const std::vector<LoweredExprPort>& loop_inputs,
                                              const std::vector<LoweredExprPort>& loop_outputs,
                                              size_t dim_idx) const;
-    std::vector<int64_t> init_finalization_offsets(const std::vector<int64_t>& ptr_increments, size_t work_amount) const;
+    std::vector<int64_t> init_finalization_offsets(const std::vector<int64_t>& finalization_offsets, size_t work_amount) const;
     std::vector<int64_t> init_element_type_sizes(const std::vector<LoweredExprPort>& loop_inputs,
                                                  const std::vector<LoweredExprPort>& loop_outputs);
+    void reuse_buffer_increments(std::vector<int64_t>& ptr_increments,
+                                 std::vector<int64_t>& finalization_offsets,
+                                 const LoweredExprIR& linear_ir,
+                                 const std::vector<LoweredExprPort>& loop_inputs,
+                                 const std::vector<LoweredExprPort>& loop_outputs);
 };
 
 } // namespace lowered
diff --git a/src/common/snippets/include/snippets/pass/reset_buffer.hpp b/src/common/snippets/include/snippets/pass/reset_buffer.hpp
deleted file mode 100644
index b2e37c06b2a866..00000000000000
--- a/src/common/snippets/include/snippets/pass/reset_buffer.hpp
+++ /dev/null
@@ -1,29 +0,0 @@
-// Copyright (C) 2018-2023 Intel Corporation
-// SPDX-License-Identifier: Apache-2.0
-//
-
-#pragma once
-
-#include <ngraph/pass/graph_rewrite.hpp>
-#include <ngraph/pattern/matcher.hpp>
-
-namespace ngraph {
-namespace snippets {
-namespace pass {
-
-/**
- * @interface ResetBufferState
- * @brief If there is Buffer between loops we should reset Buffer pointer after first loop execution (data storing) using finalization offsets
- *        to have correct buffer data pointer for data loading in the next loop where data was stored in previous loop
- * @ingroup snippets
- */
-class ResetBufferState: public ngraph::pass::MatcherPass {
-public:
-    ResetBufferState();
-
-    static int64_t calculate_required_finalization_offsets(const size_t inner_master_work_amount, const size_t inner_target_work_amount);
-};
-
-} // namespace pass
-} // namespace snippets
-} // namespace ngraph
diff --git a/src/common/snippets/include/snippets/pass/vector_to_scalar.hpp b/src/common/snippets/include/snippets/pass/vector_to_scalar.hpp
deleted file mode 100644
index da65a64e4cd828..00000000000000
--- a/src/common/snippets/include/snippets/pass/vector_to_scalar.hpp
+++ /dev/null
@@ -1,40 +0,0 @@
-// Copyright (C) 2018-2023 Intel Corporation
-// SPDX-License-Identifier: Apache-2.0
-//
-
-#pragma once
-
-#include <ngraph/pass/graph_rewrite.hpp>
-#include <ngraph/pattern/matcher.hpp>
-
-namespace ngraph {
-namespace snippets {
-namespace pass {
-
-/**
- * @interface SetScalarCountForLoad
- * @brief Set count `1` for Load to represent as ScalarLoad
- * The pass is used to change element count to loading to "1" to load scalar value
- * Used for tail generation
- * @ingroup snippets
- */
-class SetScalarCountForLoad: public ngraph::pass::MatcherPass {
-public:
-    SetScalarCountForLoad();
-};
-
-/**
- * @interface SetScalarCountForStore
- * @brief Set count `1` for Store to represent as ScalarStore
- * The pass is used to change element count to stroring to "1" to store scalar valuw
- * Used for tail generation
- * @ingroup snippets
- */
-class SetScalarCountForStore: public ngraph::pass::MatcherPass {
-public:
-    SetScalarCountForStore();
-};
-
-} // namespace pass
-} // namespace snippets
-} // namespace ngraph
diff --git a/src/common/snippets/include/snippets/utils.hpp b/src/common/snippets/include/snippets/utils.hpp
index 3325ff42446594..ec719971923101 100644
--- a/src/common/snippets/include/snippets/utils.hpp
+++ b/src/common/snippets/include/snippets/utils.hpp
@@ -24,7 +24,6 @@ inline auto is_scalar_constant(const std::shared_ptr<ngraph::Node>& source_outpu
     return ngraph::is_type<ngraph::opset1::Constant>(source_output_node) && ngraph::shape_size(source_output_node->get_shape()) == 1;
 }
 
-
 ov::PartialShape get_port_planar_shape(const Output<Node>& out);
 ov::PartialShape get_reordered_planar_shape(const ov::PartialShape& shape, const std::vector<size_t>& layout);
 std::vector<size_t> get_node_output_layout(const std::shared_ptr<Node>& node);
@@ -32,6 +31,9 @@ std::vector<size_t> get_node_output_layout(const Node* node);
 void set_transpose_output_layout(const ov::Output<Node>& port, const std::shared_ptr<opset1::Transpose>& node);
 void set_output_layout(const ov::Output<Node>& port, const std::vector<size_t>& layout);
 
+bool get_outside_loop_value(const std::shared_ptr<Node>& node);
+void set_outside_loop_value(const std::shared_ptr<Node>& node, bool is_outside = true);
+
 inline ov::Dimension get_inner_dim(const ov::PartialShape &shape) { return *(shape.rbegin()); }
 inline ov::Dimension get_outer_dim(const ov::PartialShape &shape) { return *(shape.rbegin() + 1); }
 
diff --git a/src/common/snippets/src/generator.cpp b/src/common/snippets/src/generator.cpp
index 8508b89ac3626c..83879a45ddc3e3 100644
--- a/src/common/snippets/src/generator.cpp
+++ b/src/common/snippets/src/generator.cpp
@@ -16,7 +16,7 @@
 #include "snippets/pass/lowered/load_store_insertion.hpp"
 #include "snippets/pass/lowered/vector_to_scalar.hpp"
 #include "snippets/pass/lowered/load_movebroadcast_to_broadcastload.hpp"
-#include "snippets/pass/lowered/buffer_propagate_offset_and_reset.hpp"
+#include "snippets/pass/lowered/buffer_allocation.hpp"
 #include "snippets/pass/lowered/propagate_layout.hpp"
 #include "snippets/pass/lowered/cleanup_loop_offsets.hpp"
 #include "snippets/pass/lowered/softmax_decomposition.hpp"
@@ -40,7 +40,7 @@ Generator::LoweringResult Generator::generate(std::shared_ptr<ov::Model>& m, con
     // Note: The pass LoopInit uses LoopInfo that contains entry and exit points of the corresponding Loop.
     //       To avoid the Loop information corruption, we should call the passes with Load/Store work
     //       (for example, LoadMoveBroadcastToBroadcastLoad()) after explicit Loop insertion (LoopInit())
-    const auto propagate_buffer_offsets = std::make_shared<pass::lowered::PropagateOffsetAndResetBuffer>();
+    const auto buffer_allocation_pass = std::make_shared<pass::lowered::BufferAllocation>();
     pass::lowered::LinearIRTransformationPipeline common_pipeline;
     common_pipeline.register_transformation<pass::lowered::LoopMarkup>(vector_size);
     common_pipeline.register_transformation<pass::lowered::SoftmaxDecomposition>(vector_size);
@@ -53,15 +53,19 @@ Generator::LoweringResult Generator::generate(std::shared_ptr<ov::Model>& m, con
     common_pipeline.register_transformation<pass::lowered::MoveScalarToConsumer>();
     common_pipeline.register_transformation<pass::lowered::LoadMoveBroadcastToBroadcastLoad>();
     common_pipeline.register_transformation<pass::lowered::PropagateLayout>();
-    common_pipeline.register_transformation(propagate_buffer_offsets);
+    common_pipeline.register_transformation(buffer_allocation_pass);
     common_pipeline.register_transformation<pass::lowered::CleanupLoopOffsets>();
     common_pipeline.run(linear_ir);
 
     pass::lowered::LinearIRTransformationPipeline target_pipeline = target_specific_transformations();
     target_pipeline.run(linear_ir);
 
+    std::function<opRegType(const std::shared_ptr<Node>& op)> reg_type_mapper = [&](const std::shared_ptr<Node>& op) -> opRegType {
+        return get_op_reg_type(op);
+    };
+
     pass::lowered::LinearIRTransformationPipeline final_pipeline;
-    final_pipeline.register_transformation<pass::lowered::AssignRegisters>(get_op_reg_type);
+    final_pipeline.register_transformation<pass::lowered::AssignRegisters>(reg_type_mapper);
     final_pipeline.register_transformation<pass::lowered::InsertTailLoop>();
     final_pipeline.run(linear_ir);
 
@@ -85,7 +89,7 @@ Generator::LoweringResult Generator::generate(std::shared_ptr<ov::Model>& m, con
     if (config.m_save_lowered_code)
         lowered_saved = linear_ir;
 
-    return {target->get_snippet(), propagate_buffer_offsets->get_scratchpad_size()};
+    return {target->get_snippet(), buffer_allocation_pass->get_scratchpad_size()};
 }
 
 std::shared_ptr<const TargetMachine> Generator::get_target_machine() const {
diff --git a/src/common/snippets/src/lowered_expr.cpp b/src/common/snippets/src/lowered_expr.cpp
index b3d6aafee27d07..caa9cc98cee578 100644
--- a/src/common/snippets/src/lowered_expr.cpp
+++ b/src/common/snippets/src/lowered_expr.cpp
@@ -3,13 +3,12 @@
 //
 
 #include "snippets/lowered_expr.hpp"
-#include "snippets/pass/assign_registers.hpp"
-#include "snippets/pass/vector_to_scalar.hpp"
 #include "snippets/op/loop.hpp"
 #include "snippets/op/subgraph.hpp"
 #include <snippets/itt.hpp>
 #include <snippets/op/serialization_node.hpp>
 #include "snippets/tensor_descriptor.hpp"
+#include "snippets/utils.hpp"
 
 #include <openvino/core/graph_util.hpp>
 #include <openvino/core/type.hpp>
@@ -24,6 +23,7 @@ LoweredExpr::LoweredExpr(const std::shared_ptr<Node>& n) : m_source_node{n}, m_e
         m_inputs.emplace_back(get_tensor_descriptor_ptr(in.get_source_output()));
     for (const auto& out : n->outputs())
         m_outputs.emplace_back(get_tensor_descriptor_ptr(out));
+    m_is_outside_loop = utils::get_outside_loop_value(n);
 }
 
 LoweredExpr::LoweredExpr(const std::shared_ptr<Node>& n, std::vector<TensorDescriptorPtr> inputs, std::vector<TensorDescriptorPtr> outputs)
@@ -31,6 +31,7 @@ LoweredExpr::LoweredExpr(const std::shared_ptr<Node>& n, std::vector<TensorDescr
     if (m_outputs.empty())
         for (const auto& out : n->outputs())
             m_outputs.emplace_back(get_tensor_descriptor_ptr(out));
+    m_is_outside_loop = utils::get_outside_loop_value(n);
 }
 
 std::shared_ptr<Node> LoweredExpr::get_node() const {
@@ -113,7 +114,8 @@ bool operator!=(const LoweredExprPort& lhs, const LoweredExprPort& rhs) {
 
 bool operator<(const LoweredExprPort& lhs, const LoweredExprPort& rhs) {
     OPENVINO_ASSERT(lhs.type == rhs.type, "Incorrect comparison: Ports are from different types!");
-    return (lhs.expr < rhs.expr) || (lhs.expr == rhs.expr && lhs.port < rhs.port);
+    // Firstly ports
+    return (lhs.port < rhs.port) || (lhs.port == rhs.port && lhs.expr < rhs.expr);
 }
 
 LoweredExprIR::LoweredExprIR(const std::shared_ptr<ov::Model>& model, LoweringConfig config)
diff --git a/src/common/snippets/src/op/brgemm.cpp b/src/common/snippets/src/op/brgemm.cpp
index 2be0477b27f3c5..c57e949cae5850 100644
--- a/src/common/snippets/src/op/brgemm.cpp
+++ b/src/common/snippets/src/op/brgemm.cpp
@@ -13,11 +13,11 @@ namespace snippets {
 namespace op {
 
 Brgemm::Brgemm(const Output<Node>& A, const Output<Node>& B,
-               const size_t offset_a, const size_t offset_b, const size_t offset_c) : MemoryAccess({A, B}, 2, 1) {
+               const size_t offset_a, const size_t offset_b, const size_t offset_c) : MemoryAccess({A, B}, std::set<size_t>{0, 1}, std::set<size_t>{0}) {
     set_output_size(1);
     set_input_offset(offset_a, 0);
     set_input_offset(offset_b, 1);
-    set_output_offset(offset_a, 0);
+    set_output_offset(offset_c, 0);
     constructor_validate_and_infer_types();
 }
 
@@ -27,21 +27,9 @@ void Brgemm::validate_and_infer_types() {
     NODE_VALIDATION_CHECK(this, get_input_partial_shape(0).is_static() && get_input_partial_shape(1).is_static(),
                           "Brgemm currently supports only static shapes.");
 
-    std::vector<ov::PartialShape> planar_input_shapes;
-    for (const auto& in : input_values()) {
-        const auto& td = ngraph::snippets::get_tensor_descriptor_ptr(in);
-        const auto& planar_shape = utils::get_reordered_planar_shape(ov::Shape{td->get_tensor()}, td->get_layout());
-        planar_input_shapes.emplace_back(planar_shape);
-    }
-
+    const auto planar_input_shapes = get_planar_input_shapes(input_values());
     auto output_shape = get_output_partial_shape(planar_input_shapes);
-    const auto& rt_info = get_rt_info();
-    auto it = rt_info.find(TensorDescriptorPtrVectorAttribute::get_type_info_static());
-    if (it != rt_info.end()) {
-        const auto& td = it->second.as<TensorDescriptorPtrVectorAttribute>().m_value[0];
-        output_shape = utils::get_reordered_planar_shape(output_shape, td->get_layout());
-    }
-    set_output_type(0, get_output_type(), output_shape);
+    set_output_type(0, get_output_type(), get_planar_output_shape(output_shape));
 }
 
 std::shared_ptr<Node> Brgemm::clone_with_new_inputs(const OutputVector& new_args) const {
@@ -68,6 +56,22 @@ ov::element::Type Brgemm::get_output_type() const {
     }
 }
 
+std::vector<ov::PartialShape> Brgemm::get_planar_input_shapes(const std::vector<ov::Output<ov::Node>>& inputs) const {
+    OPENVINO_ASSERT(inputs.size() == 2, "Brgemm::get_planar_input_shapes() expects 2 inputs");
+    return { utils::get_port_planar_shape(inputs[0]), utils::get_port_planar_shape(inputs[1]) };
+}
+
+ov::PartialShape Brgemm::get_planar_output_shape(const ov::PartialShape& output_shape) const {
+    // This method can be safely called from validate_and_infer_types() before output creation
+    const auto& rt_info = get_rt_info();
+    auto it = rt_info.find(TensorDescriptorPtrVectorAttribute::get_type_info_static());
+    if (it != rt_info.end()) {
+        const auto& td = it->second.as<TensorDescriptorPtrVectorAttribute>().m_value[0];
+        return utils::get_reordered_planar_shape(output_shape, td->get_layout());
+    }
+    return output_shape;
+}
+
 ov::PartialShape Brgemm::get_output_partial_shape(const std::vector<ov::PartialShape>& input_shapes) const {
     NGRAPH_CHECK(input_shapes.size() == 2, "BRGEMM expects 2 input shapes for shape inference");
 
diff --git a/src/common/snippets/src/op/broadcastload.cpp b/src/common/snippets/src/op/broadcastload.cpp
index ccbb5f9b9af9a7..d2d39ca8d30136 100644
--- a/src/common/snippets/src/op/broadcastload.cpp
+++ b/src/common/snippets/src/op/broadcastload.cpp
@@ -12,7 +12,7 @@ using namespace std;
 using namespace ngraph;
 
 snippets::op::BroadcastLoad::BroadcastLoad(const Output<Node>& x, ov::PartialShape shape, size_t offset)
-    : MemoryAccess({x}, 1, 0), output_shape(std::move(shape)) {
+    : MemoryAccess({x}, std::set<size_t>{0}, std::set<size_t>{}), output_shape(std::move(shape)) {
     set_input_port_descriptor({1, offset}, 0);
     constructor_validate_and_infer_types();
 }
@@ -29,5 +29,10 @@ std::shared_ptr<Node> snippets::op::BroadcastLoad::clone_with_new_inputs(const O
 }
 
 void snippets::op::BroadcastLoad::validate_and_infer_types() {
+    // BroadcastLoad has memory access port only on output
+    const auto input_ma_ports = get_memory_access_input_ports();
+    const auto output_ma_ports = get_memory_access_output_ports();
+    OPENVINO_ASSERT(input_ma_ports.size() == 1 && is_memory_access_input_port(0), "BroadcastLoad node must have memory access input port");
+    OPENVINO_ASSERT(output_ma_ports.size() == 0, "BroadcastLoad node mustn't have memory access output port");
     set_output_type(0, get_input_element_type(0), output_shape);
 }
diff --git a/src/common/snippets/src/op/load.cpp b/src/common/snippets/src/op/load.cpp
index f1f5bc42c7a3da..5bc208615a27e6 100644
--- a/src/common/snippets/src/op/load.cpp
+++ b/src/common/snippets/src/op/load.cpp
@@ -12,15 +12,22 @@ namespace ngraph {
 namespace snippets {
 namespace op {
 
-Load::Load(const Output<Node>& x, const size_t count, const size_t offset) : MemoryAccess({x}, 1, 0) {
+Load::Load(const Output<Node>& x, const size_t count, const size_t offset)
+    : MemoryAccess({x}, std::set<size_t>{0}, std::set<size_t>{}) {
     set_input_port_descriptor({count, offset}, 0);
     constructor_validate_and_infer_types();
 }
 
-void snippets::op::Load::validate_and_infer_types() {
+void Load::validate_memory_access_params() const {
     // Load has memory access port only on output
-    OPENVINO_ASSERT(get_input_port_count() == 1, "Load node must have memory access input port");
-    OPENVINO_ASSERT(get_output_port_count() == 0, "Load node mustn't have memory access output port");
+    const auto input_ma_ports = get_memory_access_input_ports();
+    const auto output_ma_ports = get_memory_access_output_ports();
+    OPENVINO_ASSERT(input_ma_ports.size() == 1 && is_memory_access_input_port(0), "Load node must have memory access input port");
+    OPENVINO_ASSERT(output_ma_ports.size() == 0, "Load node mustn't have memory access output port");
+}
+
+void snippets::op::Load::validate_and_infer_types() {
+    validate_memory_access_params();
     set_output_type(0, get_input_element_type(0), get_input_partial_shape(0));
 }
 
@@ -40,12 +47,11 @@ LoadReshape::LoadReshape(const Output<ov::Node>& x, const size_t count, const si
                  *std::min_element(m_order.begin(), m_order.end()) == 0, "LoadReshape detected invalid values in new_order");
     const std::set<size_t> unique_dims(order.begin(), order.end());
     NGRAPH_CHECK(unique_dims.size() == order.size(), "LoadReshape order must not contain repeated elements");
-    m_input_ports.resize(get_input_size());
-    set_input_port_descriptor({count, offset}, 0);
     constructor_validate_and_infer_types();
 }
 
 void snippets::op::LoadReshape::validate_and_infer_types() {
+    validate_memory_access_params();
     const auto& old_shape = get_input_partial_shape(0);
     ov::PartialShape new_shape;
     for (const auto idx : m_order)
diff --git a/src/common/snippets/src/op/memory_access.cpp b/src/common/snippets/src/op/memory_access.cpp
index b40de8046138c2..613e520d0b9232 100644
--- a/src/common/snippets/src/op/memory_access.cpp
+++ b/src/common/snippets/src/op/memory_access.cpp
@@ -10,46 +10,86 @@ namespace snippets {
 namespace op {
 
 MemoryAccess::MemoryAccess(const OutputVector& arguments, size_t input_count, size_t output_count) : Op(arguments) {
-    while (m_input_ports.size() < input_count) {
-        m_input_ports.push_back({0, 0, m_input_ports.size()});
+    auto init_iota_set = [](size_t num) {
+        if (num == 0)
+            return std::set<size_t>{};
+        std::vector<size_t> vec(num);
+        std::iota(vec.begin(), vec.end(), 0);
+        return std::set<size_t>(vec.begin(), vec.end());
+    };
+    ctor_initialize(init_iota_set(input_count), init_iota_set(output_count));
+}
+
+MemoryAccess::MemoryAccess(const OutputVector& arguments, const std::set<size_t>& input_ports, const std::set<size_t>& output_ports) : Op(arguments) {
+    ctor_initialize(input_ports, output_ports);
+}
+
+void MemoryAccess::ctor_initialize(const std::set<size_t>& input_ports, const std::set<size_t>& output_ports) {
+    for (auto port : input_ports) {
+        m_input_ports[port] = {0, 0, port};
+    }
+    for (auto port : output_ports) {
+        m_output_ports[port] = {0, 0, port};
+    }
+}
+
+bool MemoryAccess::is_full_memory_access_op() const {
+    for (size_t i = 0; i < get_input_size(); ++i) {
+        if (!is_memory_access_input_port(i))
+            return false;
     }
-    while (m_output_ports.size() < output_count) {
-        m_output_ports.push_back({0, 0, m_output_ports.size()});
+    for (size_t i = 0; i < get_output_size(); ++i) {
+        if (!is_memory_access_output_port(i))
+            return false;
     }
+    return true;
 }
 
 bool MemoryAccess::visit_attributes(AttributeVisitor& visitor) {
-    for (size_t i = 0; i < m_input_ports.size(); ++i) {
-        auto port = m_input_ports[i];
-        visitor.on_attribute("count_in_" + std::to_string(i), port.count);
-        visitor.on_attribute("offset_in_" + std::to_string(i), port.offset);
+    for (const auto& p : m_input_ports) {
+        auto idx = p.first;
+        auto port = p.second;
+        visitor.on_attribute("count_in_" + std::to_string(idx), port.count);
+        visitor.on_attribute("offset_in_" + std::to_string(idx), port.offset);
     }
-    for (size_t i = 0; i < m_output_ports.size(); ++i) {
-        auto port = m_output_ports[i];
-        visitor.on_attribute("count_out_" + std::to_string(i), port.count);
-        visitor.on_attribute("offset_out_" + std::to_string(i), port.offset);
+    for (const auto& p : m_output_ports) {
+        auto idx = p.first;
+        auto port = p.second;
+        visitor.on_attribute("count_out_" + std::to_string(idx), port.count);
+        visitor.on_attribute("offset_out_" + std::to_string(idx), port.offset);
     }
     return true;
 }
 
+bool MemoryAccess::is_memory_access_input_port(size_t idx) const {
+    return m_input_ports.find(idx) != m_input_ports.end();
+}
+bool MemoryAccess::is_memory_access_output_port(size_t idx) const {
+    return m_output_ports.find(idx) != m_output_ports.end();
+}
+
 void MemoryAccess::set_input_port_descriptor(const PortDescriptor& desc, const size_t i) {
-    NGRAPH_CHECK(i < m_input_ports.size(), "Index of input port descriptor should be less than count of input ports");
-    m_input_ports[i] = { desc.count, desc.offset, i};
+    const auto it = m_input_ports.find(i);
+    NGRAPH_CHECK(it != m_input_ports.end(), "Index of input port descriptor should be less than count of input ports");
+    (*it).second = { desc.count, desc.offset, i};
 }
 
 void MemoryAccess::set_output_port_descriptor(const PortDescriptor& desc, const size_t i) {
-    NGRAPH_CHECK(i < m_output_ports.size(), "Index of output port descriptor should be less than count of output ports");
-    m_output_ports[i] = { desc.count, desc.offset, i};
+    const auto it = m_output_ports.find(i);
+    NGRAPH_CHECK(it != m_output_ports.end(), "Index of output port descriptor should be less than count of output ports");
+    (*it).second = { desc.count, desc.offset, i};
 }
 
 const MemoryAccess::PortDescriptor& MemoryAccess::get_input_port_descriptor(const size_t i) const {
-    NGRAPH_CHECK(i < m_input_ports.size(), "Index of input port descriptor should be less than count of input ports");
-    return m_input_ports[i];
+    const auto it = m_input_ports.find(i);
+    NGRAPH_CHECK(it != m_input_ports.end(), "Index of input port descriptor should be less than count of input ports");
+    return (*it).second;
 }
 
 const MemoryAccess::PortDescriptor& MemoryAccess::get_output_port_descriptor(const size_t i) const {
-    NGRAPH_CHECK(i < m_output_ports.size(), "Index of output port descriptor should be less than count of output ports");
-    return m_output_ports[i];
+    const auto it = m_output_ports.find(i);
+    NGRAPH_CHECK(it != m_output_ports.end(), "Index of output port descriptor should be less than count of output ports");
+    return (*it).second;
 }
 
 void  MemoryAccess::set_input_count(size_t count, size_t idx) {
diff --git a/src/common/snippets/src/op/store.cpp b/src/common/snippets/src/op/store.cpp
index 8ac2c4cdf1704e..dfb1f6ed32abbb 100644
--- a/src/common/snippets/src/op/store.cpp
+++ b/src/common/snippets/src/op/store.cpp
@@ -12,15 +12,18 @@ namespace ngraph {
 namespace snippets {
 namespace op {
 
-snippets::op::Store::Store(const Output<Node>& x, const size_t count, const size_t offset) : MemoryAccess({x}, 0, 1) {
+snippets::op::Store::Store(const Output<Node>& x, const size_t count, const size_t offset)
+    : MemoryAccess({x}, std::set<size_t>{}, std::set<size_t>{0}) {
     set_output_port_descriptor({count, offset}, 0);
     constructor_validate_and_infer_types();
 }
 
 void snippets::op::Store::validate_and_infer_types() {
     // Store has memory access port only on output
-    OPENVINO_ASSERT(get_input_port_count() == 0, "Store node mustn't have memory access input port");
-    OPENVINO_ASSERT(get_output_port_count() == 1, "Store node must have memory access output port");
+    const auto input_ma_ports = get_memory_access_input_ports();
+    const auto output_ma_ports = get_memory_access_output_ports();
+    OPENVINO_ASSERT(input_ma_ports.size() == 0, "Store node mustn't have memory access input port");
+    OPENVINO_ASSERT(output_ma_ports.size() == 1 && is_memory_access_output_port(0), "Store node must have memory access output port");
     set_output_type(0, get_input_element_type(0), get_input_partial_shape(0));
 }
 
diff --git a/src/common/snippets/src/op/subgraph.cpp b/src/common/snippets/src/op/subgraph.cpp
index 7f8e6df23946d9..b34e597d69cc5c 100644
--- a/src/common/snippets/src/op/subgraph.cpp
+++ b/src/common/snippets/src/op/subgraph.cpp
@@ -10,14 +10,12 @@
 #include "snippets/pass/insert_movebroadcast.hpp"
 #include "snippets/pass/broadcast_to_movebroadcast.hpp"
 #include "snippets/pass/propagate_precision.hpp"
-#include "snippets/pass/assign_registers.hpp"
 #include "snippets/pass/convert_constants.hpp"
 #include "snippets/pass/convert_power_to_powerstatic.hpp"
 #include "snippets/pass/transpose_decomposition.hpp"
 #include "snippets/pass/transform_convert.hpp"
 #include "snippets/pass/matmul_to_brgemm.hpp"
 #include "snippets/pass/fuse_transpose_brgemm.hpp"
-#include "snippets/pass/reset_buffer.hpp"
 #include "snippets/utils.hpp"
 
 #include "transformations/common_optimizations/nop_elimination.hpp"
diff --git a/src/common/snippets/src/pass/insert_buffer.cpp b/src/common/snippets/src/pass/insert_buffer.cpp
deleted file mode 100644
index e7f4c90ae028ed..00000000000000
--- a/src/common/snippets/src/pass/insert_buffer.cpp
+++ /dev/null
@@ -1,97 +0,0 @@
-// Copyright (C) 2018-2022 Intel Corporation
-// SPDX-License-Identifier: Apache-2.0
-//
-
-#include <snippets/itt.hpp>
-#include "snippets/remarks.hpp"
-
-#include "snippets/pass/insert_buffer.hpp"
-#include "snippets/snippets_isa.hpp"
-
-#include <ngraph/rt_info.hpp>
-#include <ngraph/pattern/op/wrap_type.hpp>
-
-ngraph::snippets::pass::InsertBuffer::InsertBuffer(const int32_t allocation_rank) {
-    MATCHER_SCOPE(InsertBuffer);
-    // The list of operations that require Buffers on their Inputs and Outputs
-    const auto pattern = ngraph::pattern::wrap_type<ngraph::op::v1::Softmax,
-                                                    ngraph::op::v8::Softmax,
-                                                    ngraph::op::v1::Transpose,
-                                                    op::Brgemm>();
-
-    register_matcher(std::make_shared<ngraph::pattern::Matcher>(pattern, matcher_name),
-            [allocation_rank](ngraph::pattern::Matcher &m) {
-            OV_ITT_SCOPED_TASK(ngraph::pass::itt::domains::SnippetsTransform, "Snippets::op::InsertBuffer")
-            auto root = m.get_match_root();
-            bool rewritten = false;
-
-            // check if already has Buffer, Parameter or Constant as an input
-            for (const auto& input : root->inputs()) {
-                const auto input_node = input.get_source_output().get_node()->shared_from_this();
-                if (!ov::is_type<ngraph::snippets::op::Buffer>(input_node) &&
-                    !ov::is_type<ngraph::op::v0::Parameter>(input_node) &&
-                    !ov::is_type<ngraph::op::v0::Constant>(input_node)) {
-                    const auto buffer = std::make_shared<op::Buffer>(input_node, allocation_rank);
-                    root->set_argument(input.get_index(), buffer);
-                    rewritten |= true;
-                }
-                if (ov::is_type<op::Buffer>(input.get_source_output().get_node_shared_ptr()) &&
-                    input.get_source_output().get_target_inputs().size() != 1) {
-                    throw ngraph::ngraph_error(
-                            "If Buffer is a input for operation output, this Buffer should be a single consumer for this port");
-                }
-            }
-
-            // check if already has Buffer or outputs is Result
-            for (const auto& output : root->outputs()) {
-                const auto target_inputs = output.get_target_inputs();
-                if (target_inputs.size() > 1) {
-                    for (const auto& consumer : target_inputs) {
-                        const auto output_node = consumer.get_node()->shared_from_this();
-                        if (ov::is_type<ngraph::snippets::op::Buffer>(output_node)) {
-                            // If some of children from one common port are different Buffers,
-                            // we should remove them to insert one common Buffer on one common port
-                            replace_output_update_name(output_node->output(0), output_node->input_value(0));
-                        } else if (ov::is_type<ngraph::op::v0::Result>(output_node)) {
-                            /* TODO: At this moment operation which is should be wrapped by Buffers doesn't support several childs where one of them is Result
-                             * because Result and Buffer from one root port should have the same register. It's not supported at the moment
-                             * For example,
-                             *    Buffer
-                             *      |
-                             *    Softmax
-                             *    /    \
-                             * Buffer Result
-                             */
-                            throw ngraph::ngraph_error(
-                                "Operation which is should be wrapped by Buffers has few children from one output port where one of them is Result");
-                        }
-                    }
-                }
-
-                const auto buffer = std::make_shared<op::Buffer>(output, allocation_rank);
-                for (const auto& consumer : output.get_target_inputs()) {
-                    const auto output_node = consumer.get_node()->shared_from_this();
-                    if (output_node != buffer &&
-                        !ov::is_type<ngraph::snippets::op::Buffer>(output_node) &&
-                        !ov::is_type<ngraph::op::v0::Result>(output_node)) {
-                        consumer.replace_source_output(buffer);
-                        rewritten |= true;
-                    }
-                }
-
-                const auto new_target_inputs = output.get_target_inputs();
-                const auto has_buffer_on_output = std::any_of(new_target_inputs.begin(), new_target_inputs.end(), [](const ov::Input<ov::Node>& consumer) {
-                    const auto child = consumer.get_node()->shared_from_this();
-                    // We check for count of target inputs of Buffer output because
-                    // we created Buffer op with root input previously for the next possible insertions
-                    // Thus, if Buffer wasn't inserted, this op doesn't have target inputs on output
-                    return ov::is_type<ngraph::snippets::op::Buffer>(child) && child->output(0).get_target_inputs().size() > 0;
-                });
-                if (has_buffer_on_output && new_target_inputs.size() != 1) {
-                    throw ngraph::ngraph_error(
-                            "If Buffer is a input for operation output, this Buffer should be a single consumer for this port");
-                }
-            }
-            return rewritten;
-        });
-}
diff --git a/src/common/snippets/src/pass/insert_load_store.cpp b/src/common/snippets/src/pass/insert_load_store.cpp
deleted file mode 100644
index 114393bd872f96..00000000000000
--- a/src/common/snippets/src/pass/insert_load_store.cpp
+++ /dev/null
@@ -1,81 +0,0 @@
-// Copyright (C) 2018-2023 Intel Corporation
-// SPDX-License-Identifier: Apache-2.0
-//
-
-#include <snippets/itt.hpp>
-#include "snippets/remarks.hpp"
-
-#include "snippets/pass/insert_load_store.hpp"
-#include "snippets/snippets_isa.hpp"
-
-#include <ngraph/opsets/opset1.hpp>
-#include <ngraph/rt_info.hpp>
-#include <ngraph/pattern/op/wrap_type.hpp>
-
-ngraph::snippets::pass::InsertLoad::InsertLoad(const size_t count) {
-    MATCHER_SCOPE(InsertLoad);
-    register_matcher(std::make_shared<ngraph::pattern::Matcher>(
-        ngraph::pattern::wrap_type<ngraph::opset1::Parameter, ngraph::snippets::op::Buffer>(), matcher_name),
-            [count](ngraph::pattern::Matcher &m) {
-            OV_ITT_SCOPED_TASK(ngraph::pass::itt::domains::SnippetsTransform, "Snippets::op::InsertLoad")
-            auto root = m.get_match_root();
-
-            // check if already has Load as an output
-            for (const auto& output : root->outputs()) {
-                for (const auto& consumer : output.get_target_inputs()) {
-                    // if a parameter is connected to a Load => we don't need another one
-                    // if a parameter is connected to LoopBegin => there must be Load inside the Loop
-                    // if a parameter is connected to MatMul => we don't need Load (read/write is encapsulated into the brgemm emitter)
-                    // (it's the responsibility of transformation that inserted the Loops)
-                    const auto& consumer_node = consumer.get_node();
-                    if (ov::is_type<ngraph::snippets::op::Load>(consumer_node) ||
-                        ov::is_type<ngraph::snippets::op::LoopBegin>(consumer_node) ||
-                        ov::is_type<ngraph::snippets::op::Brgemm>(consumer_node) ||
-                        ov::is_type<ngraph::op::v1::Transpose>(consumer_node)) {
-                        return false;
-                    }
-                }
-            }
-
-            auto load = std::make_shared<ngraph::snippets::op::Load>(root, count);
-            ngraph::copy_runtime_info(root, load);
-
-            bool rewritten = false;
-            for (const auto& output : root->outputs()) {
-                for (const auto& consumer : output.get_target_inputs()) {
-                    if (consumer.get_node()->shared_from_this() != load) {
-                        consumer.replace_source_output(load);
-                        rewritten |= true;
-                    }
-                }
-            }
-
-            return rewritten;
-        });
-}
-
-ngraph::snippets::pass::InsertStore::InsertStore(const size_t count) {
-    MATCHER_SCOPE(InsertStore);
-    register_matcher(std::make_shared<ngraph::pattern::Matcher>(
-        ngraph::pattern::wrap_type<ngraph::opset1::Result, ngraph::snippets::op::Buffer>(), matcher_name),
-            [count](ngraph::pattern::Matcher &m) {
-            OV_ITT_SCOPED_TASK(ngraph::pass::itt::domains::SnippetsTransform, "Snippets::op::InsertStore")
-            auto root = m.get_match_root();
-
-            // check if already has Store as an input
-            for (const auto& input : root->inputs()) {
-                const auto& parent_node = input.get_source_output().get_node();
-                if (ov::is_type<ngraph::snippets::op::Store>(parent_node) ||
-                    ov::is_type<ngraph::snippets::op::LoopEnd>(parent_node) ||
-                    ov::is_type<ngraph::snippets::op::Brgemm>(parent_node)  ||
-                    ov::is_type<ngraph::op::v1::Transpose>(parent_node)) {
-                    return false;
-                }
-            }
-
-            auto store = std::make_shared<ngraph::snippets::op::Store>(root->input_value(0), count);
-            ngraph::copy_runtime_info(root, store);
-            root->set_argument(0, store);
-            return true;
-        });
-}
diff --git a/src/common/snippets/src/pass/load_movebroadcast_to_broadcastload.cpp b/src/common/snippets/src/pass/load_movebroadcast_to_broadcastload.cpp
deleted file mode 100644
index 7aa69d65bbde28..00000000000000
--- a/src/common/snippets/src/pass/load_movebroadcast_to_broadcastload.cpp
+++ /dev/null
@@ -1,46 +0,0 @@
-// Copyright (C) 2018-2023 Intel Corporation
-// SPDX-License-Identifier: Apache-2.0
-//
-
-#include "snippets/remarks.hpp"
-#include <snippets/itt.hpp>
-
-#include "snippets/pass/load_movebroadcast_to_broadcastload.hpp"
-#include "snippets/snippets_isa.hpp"
-
-#include <ngraph/opsets/opset1.hpp>
-#include <ngraph/rt_info.hpp>
-#include <ngraph/pattern/op/wrap_type.hpp>
-
-ngraph::snippets::pass::LoadMoveBroadcastToBroadcastLoad::LoadMoveBroadcastToBroadcastLoad() {
-    MATCHER_SCOPE(LoadMoveBroadcastToBroadcastLoad);
-    auto param_pattern = ngraph::pattern::wrap_type<ngraph::opset1::Parameter>();
-    auto load_pattern = ngraph::pattern::wrap_type<ngraph::snippets::op::Load>({param_pattern});
-    auto fbn = std::make_shared<ngraph::snippets::op::BroadcastMove>(load_pattern, Shape{1});
-
-    register_matcher(std::make_shared<ngraph::pattern::Matcher>(fbn, matcher_name),
-        [load_pattern, param_pattern](ngraph::pattern::Matcher &m) {
-            OV_ITT_SCOPED_TASK(ngraph::pass::itt::domains::SnippetsTransform, "Snippets::op::LoadMoveBroadcastToBroadcastLoad")
-            auto root = m.get_match_root();
-
-            const auto &pm = m.get_pattern_value_map();
-            const auto load =  ov::as_type_ptr<snippets::op::Load>(pm.at(load_pattern).get_node_shared_ptr());
-            const auto param = pm.at(param_pattern).get_node_shared_ptr();
-
-            // Cannot rewrite Broadcast + Load if load has more than 1 user
-            // or more than one input, or if Broadcast has several inputs
-            if (load->output(0).get_target_inputs().size() != 1 ||
-                root->inputs().size() != 1 || load->inputs().size() != 1) {
-                return false;
-            }
-
-            auto inshape = root->input(0).get_partial_shape();
-            auto outshape = root->output(0).get_partial_shape();
-
-            auto broadcastload = std::make_shared<snippets::op::BroadcastLoad>(param, outshape, load->get_offset());
-            ngraph::copy_runtime_info(root, broadcastload);
-            ngraph::replace_node(root, broadcastload);
-
-            return true;
-        });
-}
diff --git a/src/common/snippets/src/pass/loop_fusion.cpp b/src/common/snippets/src/pass/loop_fusion.cpp
deleted file mode 100644
index a697c1c76d08db..00000000000000
--- a/src/common/snippets/src/pass/loop_fusion.cpp
+++ /dev/null
@@ -1,332 +0,0 @@
-// Copyright (C) 2022 Intel Corporation
-// SPDX-License-Identifier: Apache-2.0
-//
-
-#include <snippets/itt.hpp>
-#include <ngraph/rt_info.hpp>
-#include <ngraph/pattern/op/wrap_type.hpp>
-
-#include "snippets/snippets_isa.hpp"
-#include "snippets/pass/loop_fusion.hpp"
-#include "snippets/utils.hpp"
-
-namespace {
-using InputSet = std::set<ov::Input<ov::Node>>;
-using Edge = std::pair<ov::Output<ov::Node>, InputSet>;
-
-auto can_be_merged(const std::shared_ptr<ngraph::snippets::op::LoopEnd>& loop_end_up,
-                   const std::shared_ptr<ngraph::snippets::op::LoopBegin>& loop_begin_down) -> bool {
-    if (!loop_end_up || !loop_begin_down)
-        return false;
-
-    const auto loop_end_down = loop_begin_down->get_loop_end();
-    const auto loop_begin_up = loop_end_up->get_loop_begin();
-    if (loop_end_down->get_work_amount() != loop_end_up->get_work_amount() ||
-        loop_end_down->get_increment() != loop_end_up->get_increment())
-        return false;
-
-    /* If between Loops there are common dependencies (for example, reducing operations), we cannot merge these Loops
-     * Example, when there is HorizonMax op between Loops:
-     *                    Data
-     *  VectorBuffer    LoopBegin
-     *         \          Load |  \
-     *           Maximum       |  /
-     *              /    LoopEnd
-     *       HorizonMax     |
-     *             \   LoopBegin
-     *              \     Load \
-     *               Subtract   |
-     *                Store    /
-     *               LoopEnd
-     */
-    auto up_dependent_ptrs = loop_end_up->get_control_dependents();
-    ov::NodeVector up_dependents(up_dependent_ptrs.size(), nullptr);
-    std::transform(up_dependent_ptrs.begin(), up_dependent_ptrs.end(), up_dependents.begin(), [](ngraph::Node* node) { return node->shared_from_this(); });
-    auto down_dependencies = loop_begin_down->get_control_dependencies();
-    std::sort(up_dependents.begin(), up_dependents.end());
-    std::sort(down_dependencies.begin(), down_dependencies.end());
-    std::vector<std::shared_ptr<ov::Node>> common_nodes;
-    std::set_intersection(up_dependents.begin(), up_dependents.end(), down_dependencies.begin(), down_dependencies.end(),
-                          std::back_inserter(common_nodes));
-    // TODO: Add check for sequence/subgraph of depending nodes between Loops.
-    //       At these moment we should have full list of dependencies and dependents of Loops to find intersection,
-    //       not just first dependent of LoopEnd and first dependency of LoopBegin
-    return common_nodes.size() == 0;
-}
-
-auto get_buffer_and_loop_end(const std::shared_ptr<ngraph::snippets::op::LoopBegin>& loop_begin_down,
-                             std::shared_ptr<ngraph::snippets::op::LoopEnd>& loop_end_up,
-                             std::shared_ptr<ngraph::snippets::op::Buffer>& buffer) -> bool {
-    size_t fusion_input_num = 0;
-    for (const auto& parent : loop_begin_down->input_values()) {
-        const auto parent_shared = parent.get_node_shared_ptr();
-        if (ov::is_type<ov::op::v0::Constant>(parent_shared) ||
-            ov::is_type<ov::op::v0::Parameter>(parent_shared) ||
-            ov::is_type<ngraph::snippets::op::LoopBegin>(parent_shared))
-            continue;
-
-        // We can fuse Loops even LoopBegin has several the same inputs (the common Buffer/LoopEnd)
-        if ((buffer && buffer == parent_shared) || (!buffer && loop_end_up && loop_end_up == parent_shared))
-            continue;
-
-        loop_end_up = ngraph::as_type_ptr<ngraph::snippets::op::LoopEnd>(parent_shared);
-        buffer = ov::as_type_ptr<ngraph::snippets::op::Buffer>(parent_shared);
-        if (buffer) {
-            if (buffer->output(0).get_target_inputs().size() == 0 ||
-                buffer->get_input_source_output(0).get_target_inputs().size() != 1)
-                return false;
-
-            loop_end_up = ngraph::as_type_ptr<ngraph::snippets::op::LoopEnd>(buffer->get_input_node_shared_ptr(0));
-        }
-        if (loop_end_up)
-            fusion_input_num++;
-    }
-
-    return fusion_input_num == 1;
-}
-
-auto collect_loop_inputs(const std::shared_ptr<ngraph::snippets::op::LoopBegin>& loop_begin,
-                         const std::shared_ptr<ngraph::snippets::op::Buffer>& buffer,
-                         std::vector<Edge>& new_loop_inputs,
-                         std::vector<int64_t>& new_ptr_increments,
-                         std::vector<int64_t>& new_finalization_offsets) -> void {
-    const auto loop_end = loop_begin->get_loop_end();
-    const auto ptr_increments = loop_end->get_ptr_increments();
-    const auto finalization_offsets = loop_end->get_finalization_offsets();
-    for (size_t i = 0; i < loop_begin->get_input_size(); i++) {
-        const auto input = loop_begin->input(i);
-        // Skip target Buffer
-        if (input.get_source_output().get_node_shared_ptr() != buffer) {
-            const auto edge = Edge{ input.get_source_output(),
-                                    loop_begin->output(input.get_index()).get_target_inputs() };
-            new_loop_inputs.push_back(edge);
-            new_ptr_increments.push_back(ptr_increments[i]);
-            new_finalization_offsets.push_back(finalization_offsets[i]);
-            // Remove LoopBegin from Parent as target input
-            input.get_source_output().remove_target_input(input);
-        }
-    }
-}
-
-auto collect_loop_outputs(const std::shared_ptr<ngraph::snippets::op::LoopEnd>& loop_end,
-                          const std::shared_ptr<ngraph::snippets::op::Buffer>& buffer,
-                          std::vector<Edge>& new_loop_outputs,
-                          std::vector<int64_t>& new_ptr_increments,
-                          std::vector<int64_t>& new_finalization_offsets,
-                          const bool reduce_max_case) -> bool {
-    const auto loop_begin = loop_end->get_loop_begin();
-    const auto ptr_increments = loop_end->get_ptr_increments();
-    const auto finalization_offsets = loop_end->get_finalization_offsets();
-    bool is_current_reduce_max_case = false;
-    for (size_t i = 0; i < loop_end->get_output_size(); i++) {
-        // ReduceMax case. When Loop cannot have empty output as ngraph op,
-        // we should have fake edge through all Loops (LoopBegin->LoopEnd) which connect src and dst data.
-        // If we merge these this Loop and Loop Before, we should remove this fake edge
-        // because now we have real data for storing
-        auto new_input_node = loop_end->get_input_node_shared_ptr(i);
-        if (ov::is_type<ngraph::snippets::op::LoopBegin>(new_input_node)) {
-            // We set temporary boolean variable because this value is for the next LoopEnd (upper), not for the current LoopEnd
-            is_current_reduce_max_case = true;
-            // Remove LoopEnd from Parent as target input
-            loop_end->input_value(i).remove_target_input(loop_end->input(i));
-        } else {
-            const auto output = loop_end->output(i);
-            // Skip target Buffer
-            InputSet target_inputs;
-            for (const auto& input : output.get_target_inputs()) {
-                if (input.get_node()->shared_from_this() != buffer || reduce_max_case) {
-                    target_inputs.insert(input);
-                }
-            }
-
-            if (target_inputs.size()) {
-                const auto edge = Edge{loop_end->input_value(output.get_index()), target_inputs};
-                new_loop_outputs.push_back(edge);
-                new_ptr_increments.push_back(ptr_increments[loop_begin->get_input_size() + i]);
-                new_finalization_offsets.push_back(finalization_offsets[loop_begin->get_input_size() + i]);
-                // Remove LoopEnd from Parent as target input
-                loop_end->input_value(i).remove_target_input(loop_end->input(i));
-            }
-        }
-    }
-
-    return is_current_reduce_max_case;
-}
-
-} // namespace
-
-// todo: deprecate this pass, and rewrite it on linear IR
-bool ngraph::snippets::pass::LoopFusion::Merge(const std::shared_ptr<op::LoopBegin>& loop_begin_down) {
-    if (!loop_begin_down) {
-        return false;
-    }
-
-    std::shared_ptr<ngraph::snippets::op::LoopEnd> loop_end_up = nullptr;
-    std::shared_ptr<ngraph::snippets::op::Buffer> buffer = nullptr;
-    // Initialize the corresponding upper LoopEnd and Buffer
-    if (!get_buffer_and_loop_end(loop_begin_down, loop_end_up, buffer)) {
-        return false;
-    }
-    // Check for conditions of fusion
-    if (!can_be_merged(loop_end_up, loop_begin_down)) {
-        return false;
-    }
-
-    const auto loop_end_down = loop_begin_down->get_loop_end();
-    const auto loop_begin_up = loop_end_up->get_loop_begin();
-    const auto new_input_count = loop_begin_up->get_input_size() + loop_begin_down->get_input_size();
-    const auto new_output_count = loop_end_up->get_output_size() + loop_end_down->get_output_size();
-    const auto new_io_count = new_input_count + new_output_count;
-    const auto ptr_increments_up = loop_end_up->get_ptr_increments();
-    const auto ptr_increments_down = loop_end_down->get_ptr_increments();
-    const auto finalization_offsets_up = loop_end_up->get_finalization_offsets();
-    const auto finalization_offsets_down = loop_end_down->get_finalization_offsets();
-    std::vector<int64_t> new_ptr_increments, new_finalization_offsets;
-    new_ptr_increments.reserve(new_io_count);
-    new_finalization_offsets.reserve(new_io_count);
-
-    // Collect new loop inputs
-    std::vector<Edge> loop_inputs;
-    loop_inputs.reserve(new_input_count);
-    new_ptr_increments.reserve(new_io_count);
-    new_finalization_offsets.reserve(new_io_count);
-    collect_loop_inputs(loop_begin_up, buffer, loop_inputs, new_ptr_increments, new_finalization_offsets);
-    collect_loop_inputs(loop_begin_down, buffer, loop_inputs, new_ptr_increments, new_finalization_offsets);
-
-    // Collect new Loop outputs
-    std::vector<Edge> loop_outputs;
-    loop_outputs.reserve(new_output_count);
-    // We can fuse Loop with maximum accumulator pattern only with Smth input
-    // So firstly, we analyze LoopEnd down (it's possible maximum accumulator pattern), set `reduce_max_case` variable
-    // if it's really maximum accumulator pattern, and then analyze LoopEnd up using `reduce_max_case` variable
-    const bool reduce_max_case = collect_loop_outputs(loop_end_down, buffer, loop_outputs, new_ptr_increments, new_finalization_offsets, false);
-    collect_loop_outputs(loop_end_up, buffer, loop_outputs, new_ptr_increments, new_finalization_offsets, reduce_max_case);
-    if (reduce_max_case) {
-        const auto target_inputs = loop_begin_down->output(0).get_target_inputs();
-        NGRAPH_CHECK(target_inputs.size() == 1, "LoopBegin in ReduceMax should have only one consumer (Load) for out port 0");
-        const auto load = ov::as_type_ptr<op::Load>(target_inputs.begin()->get_node()->shared_from_this());
-        NGRAPH_CHECK(load != nullptr, "LoopBegin in ReduceMax should have only one consumer for out port 0 - Load");
-
-        const auto store = ov::as_type_ptr<op::Store>(loop_end_up->get_input_node_shared_ptr(0));
-        NGRAPH_CHECK(store != nullptr, "Before LoopEnd should be Store emitter");
-
-        // Connect vector emitters before Store and after Load
-        load->output(0).replace(store->get_input_source_output(0));
-    }
-
-    const auto new_increment = loop_end_up->get_increment();
-    const auto new_work_amount = loop_end_up->get_work_amount();
-
-    // Create new LoopBegin
-    OutputVector new_loop_begin_inputs;
-    new_loop_begin_inputs.reserve(loop_inputs.size());
-    for (const auto& loop_input : loop_inputs) {
-        const auto data_output = loop_input.first;
-        new_loop_begin_inputs.push_back(data_output);
-    }
-    // const auto new_loop_begin = std::make_shared<op::LoopBegin>(new_loop_begin_inputs);
-     const auto new_loop_begin = std::make_shared<op::LoopBegin>();
-    NGRAPH_CHECK(new_loop_begin->get_input_size() == loop_inputs.size(), "New LoopBegin has incorrect count of inputs.");
-
-    // Connect new LoopBegin to input edges
-    for (size_t i = 0; i < loop_inputs.size(); i++) {
-        const auto edge = loop_inputs[i];
-        for (auto& target_input : edge.second) {
-            target_input.replace_source_output(new_loop_begin->output(i));
-        }
-    }
-
-    // Create new LoopEnd
-    OutputVector new_loop_end_inputs;
-    new_loop_end_inputs.reserve(loop_outputs.size() + 1);  // + 1 - for loop_begin
-    for (const auto& loop_output : loop_outputs) {
-        const auto data_output = loop_output.first;
-        new_loop_end_inputs.push_back(data_output);
-    }
-    new_loop_end_inputs.push_back(new_loop_begin->output(new_loop_begin->get_input_size()));
-    const auto new_loop_end = std::make_shared<op::LoopEnd>(new_loop_end_inputs, new_work_amount, new_increment,
-                                                            new_ptr_increments, new_finalization_offsets);
-    NGRAPH_CHECK(new_loop_end->get_output_size() == loop_outputs.size(), "New LoopEnd has incorrect count of outputs.");
-    // Connect new LoopEnd to output edges
-    for (size_t i = 0; i < loop_outputs.size(); i++) {
-        const auto edge = loop_outputs[i];
-        auto new_output = new_loop_end->output(i);
-        for (auto& target_input : edge.second) {
-            target_input.replace_source_output(new_output);
-        }
-    }
-
-    if (reduce_max_case) {
-        loop_end_down->output(0).replace(buffer->output(0));
-    } else {
-        // Remove old Loops and Load/Store if there are around Buffer
-        for (size_t i = 0; i < loop_end_up->get_input_size() - 1; i++) {
-            auto new_output = loop_end_up->input_value(i);
-            loop_end_up->output(i).replace(new_output);
-            new_output.remove_target_input(loop_end_up->input(i));
-        }
-        for (size_t i = 0; i < loop_begin_down->get_input_size(); i++) {
-            const auto output_target_inputs = loop_begin_down->output(i).get_target_inputs();
-            const auto new_output = loop_begin_down->input_value(i);
-            for (const auto &target_input : output_target_inputs) {
-                target_input.replace_source_output(new_output);
-            }
-
-            // Clear old Buffer children
-            new_output.remove_target_input(loop_begin_down->input(i));
-        }
-    }
-
-    new_loop_end->has_outer_loop = loop_end_down->has_outer_loop || loop_end_up->has_outer_loop;
-
-    loop_begin_up->transfer_control_dependents(new_loop_begin);
-    loop_begin_down->transfer_control_dependents(new_loop_begin);
-    loop_end_up->transfer_control_dependents(new_loop_end);
-    loop_end_down->transfer_control_dependents(new_loop_end);
-    new_loop_begin->add_node_control_dependencies(loop_begin_up);
-    new_loop_begin->add_node_control_dependencies(loop_begin_down);
-    new_loop_end->add_node_control_dependencies(loop_end_up);
-    new_loop_end->add_node_control_dependencies(loop_end_down);
-
-    // If there was Buffer between Loops, after Loop fusion
-    // we should remove the Buffer node and MemoryAccess nodes if it's needed
-    if (buffer) {
-        const auto buffer_input = buffer->get_input_node_shared_ptr(0);
-        const auto buffer_output = buffer->output(0).get_target_inputs().begin()->get_node()->shared_from_this();
-
-        // If after merging there are Load and Store, we should remove them
-        if (const auto store = ov::as_type_ptr<op::Store>(buffer_input)) {
-            store->output(0).replace(store->input_value(0));
-        }
-        if (const auto load = ov::as_type_ptr<op::Load>(buffer_output)) {
-            load->output(0).replace(load->input_value(0));
-        }
-
-        // Remove Buffer if there are no Loops and MatMul after Loop fusion
-        // because only these operations can have Buffer node on inputs and outputs.
-        // So if there aren't, it means that Buffer is extra, and we can remove it
-        if (!ov::is_type<op::LoopBegin>(buffer_output) && !ov::is_type<op::LoopEnd>(buffer_input) &&
-            !ov::is_type<op::Brgemm>(buffer_output) && !ov::is_type<op::Brgemm>(buffer_input)) {
-            buffer->output(0).replace(buffer->input_value(0));
-        }
-    }
-
-    return true;
-}
-
-ngraph::snippets::pass::LoopFusion::LoopFusion() {
-    MATCHER_SCOPE(LoopFusion);
-
-    auto m_loop_begin = ngraph::pattern::wrap_type<op::LoopBegin>();
-
-    auto callback = [=](ngraph::pattern::Matcher &m) {
-        OV_ITT_SCOPED_TASK(ngraph::pass::itt::domains::SnippetsTransform, "Snippets::op::LoopFusion")
-        auto& pattern_to_output = m.get_pattern_value_map();
-        const auto loop_begin = ngraph::as_type_ptr<op::LoopBegin>(pattern_to_output.at(m_loop_begin).get_node_shared_ptr());
-        const auto status = Merge(loop_begin);
-        return status;
-    };
-
-    auto matcher = std::make_shared<ngraph::pattern::Matcher>(m_loop_begin, matcher_name);
-    register_matcher(matcher, callback);
-}
diff --git a/src/common/snippets/src/pass/lowered/assign_registers.cpp b/src/common/snippets/src/pass/lowered/assign_registers.cpp
index 24e79e3770e7b5..410979b653f30d 100644
--- a/src/common/snippets/src/pass/lowered/assign_registers.cpp
+++ b/src/common/snippets/src/pass/lowered/assign_registers.cpp
@@ -19,13 +19,8 @@ bool AssignRegisters::run(LoweredExprIR& linear_ir) {
     using Reg = size_t;
     using tensor = snippets::TensorDescriptorPtr;
     auto& expressions = linear_ir.get_ops();
-    // Note that currently there are 3 types of ops:
-    //  * gpr->gpr: (Parameter, Result, LoopBegin, LoopEnd) will also be Buffer?
-    //  * gpr->vec: or vec->gpr Load/LoadConvert, Store/StoreConvert, BroadcastLoad etc.
-    //  * vec->vec: all other "normal" operations that perform calculations on vector registers: Add, BroadcastMove, Power, etc.
-    enum op_reg_type {gpr2gpr, gpr2vec, vec2gpr, vec2vec};
 
-    std::vector<std::pair<op_reg_type, LoweredExprPtr>> typed_ops;
+    std::vector<std::pair<Generator::opRegType, LoweredExprPtr>> typed_ops;
     NodeVector ops;
     Reg num_parameters = 0;
     Reg num_results = 0;
@@ -57,8 +52,10 @@ bool AssignRegisters::run(LoweredExprIR& linear_ir) {
                 throw ngraph_error("Unsupported io_type detected");
         } else if (const auto& buffer = ov::as_type_ptr<op::Buffer>(op)) {
             // All buffers have one common data pointer
-            manually_assigned_gprs[expr->get_inputs()[0]] =
-                    static_cast<Reg>(num_results + num_parameters);
+            if (buffer->is_intermediate_memory()) {
+                manually_assigned_gprs[expr->get_inputs()[0]] =
+                        static_cast<Reg>(num_results + num_parameters);
+            }
             manually_assigned_gprs[expr->get_outputs()[0]] =
                     static_cast<Reg>(num_results + num_parameters);
         } else if (ov::is_type<op::HorizonMax>(op) || ov::is_type<op::HorizonSum>(op)) {
@@ -102,12 +99,12 @@ bool AssignRegisters::run(LoweredExprIR& linear_ir) {
     };
     for (const auto& t_op : typed_ops) {
         switch (t_op.first) {
-            case vec2vec:
-            case gpr2vec:
+            case Generator::opRegType::vec2vec:
+            case Generator::opRegType::gpr2vec:
                 enumerate_out_tensors(t_op.second, regs_vec, manually_assigned_vecs, counter_vec);
                 break;
-            case gpr2gpr:
-            case vec2gpr:
+            case Generator::opRegType::gpr2gpr:
+            case Generator::opRegType::vec2gpr:
                 enumerate_out_tensors(t_op.second, regs_gpr, manually_assigned_gprs, counter_gpr);
                 break;
         }
@@ -137,19 +134,19 @@ bool AssignRegisters::run(LoweredExprIR& linear_ir) {
         for (const auto& out : t_op.second->get_outputs())
             defined_tensors.push_back(out);
         switch (t_op.first) {
-            case vec2vec:
+            case Generator::opRegType::vec2vec:
                 used_vec[i] = tensor2reg(used_tensors, regs_vec);
                 defined_vec[i] = tensor2reg(defined_tensors, regs_vec);
                 break;
-            case gpr2gpr:
+            case Generator::opRegType::gpr2gpr:
                 used_gpr[i] = tensor2reg(used_tensors, regs_gpr);
                 defined_gpr[i] = tensor2reg(defined_tensors, regs_gpr);
                 break;
-            case gpr2vec:
+            case Generator::opRegType::gpr2vec:
                 used_gpr[i] = tensor2reg(used_tensors, regs_gpr);
                 defined_vec[i] = tensor2reg(defined_tensors, regs_vec);
                 break;
-            case vec2gpr:
+            case Generator::opRegType::vec2gpr:
                 used_vec[i] = tensor2reg(used_tensors, regs_vec);
                 defined_gpr[i] = tensor2reg(defined_tensors, regs_gpr);
                 break;
@@ -193,12 +190,12 @@ bool AssignRegisters::run(LoweredExprIR& linear_ir) {
                     if (k == typed_ops.size())
                         throw ngraph_error("assign registers can't find target op in the body");
                     switch (typed_ops[k].first) {
-                        case vec2vec:
-                        case vec2gpr:
+                        case Generator::opRegType::vec2vec:
+                        case Generator::opRegType::vec2gpr:
                             life_out_vec[n].insert(life_in_vec[k].begin(), life_in_vec[k].end());
                             break;
-                        case gpr2gpr:
-                        case gpr2vec:
+                        case Generator::opRegType::gpr2gpr:
+                        case Generator::opRegType::gpr2vec:
                             life_out_gpr[n].insert(life_in_gpr[k].begin(), life_in_gpr[k].end());
                             break;
                     }
diff --git a/src/common/snippets/src/pass/lowered/buffer_propagate_offset_and_reset.cpp b/src/common/snippets/src/pass/lowered/buffer_allocation.cpp
similarity index 56%
rename from src/common/snippets/src/pass/lowered/buffer_propagate_offset_and_reset.cpp
rename to src/common/snippets/src/pass/lowered/buffer_allocation.cpp
index a78e5195469f42..b199d0e508af69 100644
--- a/src/common/snippets/src/pass/lowered/buffer_propagate_offset_and_reset.cpp
+++ b/src/common/snippets/src/pass/lowered/buffer_allocation.cpp
@@ -2,18 +2,18 @@
 // SPDX-License-Identifier: Apache-2.0
 //
 
-#include "snippets/pass/lowered/buffer_propagate_offset_and_reset.hpp"
+#include "snippets/pass/lowered/buffer_allocation.hpp"
 #include "snippets/itt.hpp"
+#include "snippets/lowered_expr.hpp"
 
 namespace ngraph {
 namespace snippets {
 namespace pass {
 namespace lowered {
 
-void PropagateOffsetAndResetBuffer::propagate_offset(const LoweredExprIR& linear_ir, const LoweredExprPtr& buffer_expr, const size_t offset) {
-    // If Buffer has offset We set this offset in the next Load and Store ops
+void BufferAllocation::propagate_offset(const LoweredExprIR& linear_ir, const LoweredExprPtr& buffer_expr, const size_t offset) {
+    // If Buffer has offset We set this offset in the connected MemoryAccess ops
     // to correctly read and write data because all buffers have the one register
-    // Also if user sets offset to a Buffer It means that the Buffer has the corresponding Load and Store ops
 
     const auto buffer = ov::as_type_ptr<op::Buffer>(buffer_expr->get_node());
 
@@ -25,7 +25,8 @@ void PropagateOffsetAndResetBuffer::propagate_offset(const LoweredExprIR& linear
             const auto& parent_expr = parent_output.expr;
             const auto port = parent_output.port;
             const auto& parent_node = parent_expr->get_node();
-            if (auto memory_access = ov::as_type_ptr<ngraph::snippets::op::MemoryAccess>(parent_node)) {
+            auto memory_access = ov::as_type_ptr<ngraph::snippets::op::MemoryAccess>(parent_node);
+            if (memory_access && memory_access->is_memory_access_output_port(port)) {
                 memory_access->set_output_offset(offset, port);
             } else {
                 throw ngraph_error(
@@ -33,14 +34,18 @@ void PropagateOffsetAndResetBuffer::propagate_offset(const LoweredExprIR& linear
             }
         }
     }
-    // Propagate to down: in Load. Buffer can have several Load and Loops after himself. We should go through all target inputs
+    // Propagate to down: in Load. Buffer can have several Load
     const auto& buffer_out = buffer_expr->get_outputs()[0];
     for (const auto& child_expr_input : linear_ir.get_exprs_by_input(buffer_out)) {
         const auto& child_expr = child_expr_input.expr;
         const auto port = child_expr_input.port;
         const auto& child_node = child_expr->get_node();
-        if (auto memory_access = ov::as_type_ptr<ngraph::snippets::op::MemoryAccess>(child_node)) {
+        auto memory_access = ov::as_type_ptr<ngraph::snippets::op::MemoryAccess>(child_node);
+        if (memory_access && memory_access->is_memory_access_input_port(port)) {
             memory_access->set_input_offset(offset, port);
+        } else if (ov::is_type<op::LoopEnd>(child_node)) {
+            // After Loop initialization, Buffer can be connected to LoopEnd - it's ok
+            continue;
         } else {
             throw ngraph_error(
                     "Buffer::set_offset() was called when Buffer didn't have the corresponding MemoryAccess op for offset propagation");
@@ -49,9 +54,9 @@ void PropagateOffsetAndResetBuffer::propagate_offset(const LoweredExprIR& linear
 }
 
 
-bool PropagateOffsetAndResetBuffer::run(LoweredExprIR& linear_ir) {
-    OV_ITT_SCOPED_TASK(ngraph::pass::itt::domains::SnippetsTransform, "Snippets::buffer_propagate_offset_and_reset")
-    std::vector<LoweredExprIR::container::iterator> exprs_to_del;
+bool BufferAllocation::run(LoweredExprIR& linear_ir) {
+    OV_ITT_SCOPED_TASK(ngraph::pass::itt::domains::SnippetsTransform, "Snippets::BufferAllocation");
+
     bool modified = false;
     size_t offset = 0;
     for (auto expr_it = linear_ir.begin(); expr_it != linear_ir.end(); expr_it++) {
@@ -66,8 +71,10 @@ bool PropagateOffsetAndResetBuffer::run(LoweredExprIR& linear_ir) {
             if (buffer->is_intermediate_memory()) {
                 const auto& parent_expr = linear_ir.get_expr_by_output(expr_it->get()->get_inputs()[0]).expr;
                 const auto& parent_node = parent_expr->get_node();
-                // Brgemm is a special case, since it doesn't allow memory reuse
-                if (ov::is_type<op::Brgemm>(parent_node)) {
+                // Full MemoryAccess ops need new memory. Previous logic is to check for parent isn't Loop
+                // TODO: It should be unified in MemoryManager with memory reuse in the near future
+                const auto ma = ov::as_type_ptr<op::MemoryAccess>(parent_node);
+                if (ma && ma->is_full_memory_access_op()) {
                     offset = m_buffer_scratchpad_size;
                     buffer->set_offset(static_cast<int64_t>(offset));
                     propagate_offset(linear_ir, *expr_it, offset);
@@ -88,36 +95,6 @@ bool PropagateOffsetAndResetBuffer::run(LoweredExprIR& linear_ir) {
                 m_buffer_scratchpad_size += buffer_size;
             }
             modified = true;
-        } else if (auto loop_end = as_type_ptr<op::LoopEnd>(expr_it->get()->get_node())) {
-            // Note: Buffer always employ inplace logics by default. It means that if a loop has both
-            // an input and an output connected to Buffers, the corresponding register should nevertheless be
-            // incremented only once (because when the input reg is incremented, output incremented automatically).
-            // This condition should be removed when Buffers stop being inplace by default.
-            const auto& ins = expr_it->get()->get_inputs();
-            std::vector<int> buffer_idx{};
-            for (int i = 0; i < static_cast<int>(ins.size()) - 1; i++) {
-                const auto& in = ins[i];
-                // If producer of the input expr is buffer: this covers Buffer->Load patterns
-                if (ov::is_type<op::Buffer>(linear_ir.get_expr_by_output(in).expr->get_node()))
-                    buffer_idx.push_back(i);
-                // If consumer of the input is buffer: Store->Buffer patterns
-                for (const auto& consumer : linear_ir.get_exprs_by_input(in)) {
-                    if (ov::is_type<op::Buffer>(consumer.expr->get_node()))
-                        buffer_idx.push_back(i);
-                }
-            }
-
-            if (buffer_idx.size() > 1) {
-                auto ptr_increments = loop_end->get_ptr_increments();
-                auto fin_offsets = loop_end->get_finalization_offsets();
-                for (size_t i = 0; i < buffer_idx.size() - 1; i++) {
-                    const auto idx_to_drop = buffer_idx[i];
-                    ptr_increments[idx_to_drop] = 0;
-                    fin_offsets[idx_to_drop] = 0;
-                }
-                loop_end->set_ptr_increments(ptr_increments);
-                loop_end->set_finalization_offsets(fin_offsets);
-            }
         }
     }
     return modified;
diff --git a/src/common/snippets/src/pass/lowered/buffer_insertion.cpp b/src/common/snippets/src/pass/lowered/buffer_insertion.cpp
index 7ecf54bb1dfcf5..4bcccec2b93094 100644
--- a/src/common/snippets/src/pass/lowered/buffer_insertion.cpp
+++ b/src/common/snippets/src/pass/lowered/buffer_insertion.cpp
@@ -17,12 +17,6 @@ BufferInsertion::BufferInsertion(int32_t buffer_allocation_rank)
 
 LoweredExprIR::constExprIt BufferInsertion::insertion_position(const LoweredExprIR& linear_ir, const LoweredExprIR::LoweredLoopManagerPtr& loop_manager,
                                                                const LoweredExprPtr& up_expr, const LoweredExprPtr& down_expr) {
-    if (ov::is_type<op::Brgemm>(up_expr->get_node())) {
-        return std::next(std::find(linear_ir.begin(), linear_ir.end(), up_expr));
-    } else if (ov::is_type<op::Brgemm>(down_expr->get_node())) {
-        return std::find(linear_ir.begin(), linear_ir.end(), down_expr);
-    }
-
     const auto up_loops = up_expr->get_loop_ids();
     const auto down_loops = down_expr->get_loop_ids();
     OPENVINO_ASSERT(up_loops.size() == down_loops.size(), "The Loop IDs must be normalized!");
@@ -31,12 +25,33 @@ LoweredExprIR::constExprIt BufferInsertion::insertion_position(const LoweredExpr
         if (up_loops[loop_idx] != down_loops[loop_idx])
             break;
     }
-    OPENVINO_ASSERT(loop_idx != up_loops.size(), "A Buffer must be inserted only between Loops!");
-    const auto loop_id = up_loops[loop_idx];
-    const auto loop_info = loop_manager->get_loop_info(loop_id);
-    LoweredExprIR::constExprIt loop_begin_pos, loop_end_pos;
-    loop_manager->get_loop_bounds(linear_ir, loop_id, loop_begin_pos, loop_end_pos);
-    return loop_end_pos;
+
+    // If loop_ids of expressions are equal and don't contain LOOP_NULL_ID, it's attempt to insert Buffer between expressions from the same Loop!
+    if (loop_idx == up_loops.size() && std::none_of(up_loops.begin(), up_loops.end(), [](const size_t id) { return id == LoweredExpr::LOOP_NULL_ID; }))
+        throw ov::Exception("Buffer isn't supported in Inner Loop at the moment!");
+
+    // If the both expressions are outside Loops, insert Buffer explicitly after first Expression
+    if (loop_idx == up_loops.size()) {
+        return std::next(std::find(linear_ir.begin(), linear_ir.end(), up_expr));
+    }
+
+    const auto up_loop_id = up_loops[loop_idx];
+    const auto down_loop_id = down_loops[loop_idx];
+    if (up_loop_id != LoweredExpr::LOOP_NULL_ID) {
+        // If upper expression is inside Loop, we should insert Buffer after this Loop
+        const auto loop_info = loop_manager->get_loop_info(up_loop_id);
+        LoweredExprIR::constExprIt loop_begin_pos, loop_end_pos;
+        loop_manager->get_loop_bounds(linear_ir, up_loop_id, loop_begin_pos, loop_end_pos);
+        return loop_end_pos;
+    } else if (down_loop_id != LoweredExpr::LOOP_NULL_ID) {
+        // If lower expression is inside Loop, we should insert Buffer before this Loop
+        const auto loop_info = loop_manager->get_loop_info(down_loop_id);
+        LoweredExprIR::constExprIt loop_begin_pos, loop_end_pos;
+        loop_manager->get_loop_bounds(linear_ir, down_loop_id, loop_begin_pos, loop_end_pos);
+        return loop_begin_pos;
+    } else {
+        throw ov::Exception("Incorrect configuration for Buffer insertion!");
+    }
 }
 
 void BufferInsertion::insertion(LoweredExprIR& linear_ir, const LoweredExprIR::LoweredLoopManagerPtr& loop_manager, size_t loop_id,
@@ -56,8 +71,11 @@ void BufferInsertion::insertion(LoweredExprIR& linear_ir, const LoweredExprIR::L
             ov::is_type<opset1::Constant>(parent))
             continue;
 
-        // TODO: Need to cover Brgemm is more pretty
-        bool is_buffer_needed = ov::is_type<op::Brgemm>(parent) || ov::is_type<op::Brgemm>(node);
+        // Each MemoryAccess op needs Buffer
+        const auto parent_ma = ov::as_type_ptr<op::MemoryAccess>(parent);
+        const auto node_ma = ov::as_type_ptr<op::MemoryAccess>(node);
+        bool is_buffer_needed = (parent_ma && parent_ma->is_memory_access_output_port(parent_port)) ||
+                                (node_ma && node_ma->is_memory_access_input_port(port));
         if (!is_buffer_needed) {
             const auto current_loops = expr->get_loop_ids();
             const auto parent_loops = parent_expr->get_loop_ids();
@@ -107,15 +125,20 @@ void BufferInsertion::insertion(LoweredExprIR& linear_ir, const LoweredExprIR::L
         std::set<LoweredExprPtr> buffers;
         const auto current_loop_lvl = std::distance(current_loops.begin(), std::find(current_loops.begin(), current_loops.end(), loop_id));
         for (const auto& child_expr_input : child_exprs_inputs) {
-            const auto child_expr = child_expr_input.expr;
-            const auto child = child_expr->get_node();
+            const auto& child_expr = child_expr_input.expr;
+            const auto child_port = child_expr_input.port;
+            const auto& child = child_expr->get_node();
             if (ov::is_type<opset1::Result>(child))
                 continue;
             if (ov::is_type<op::Buffer>(child)) {
                 buffers.insert(child_expr);
                 continue;
             }
-            if (ov::is_type<op::Brgemm>(child) || ov::is_type<op::Brgemm>(node)) {
+            // Each MemoryAccess op needs Buffer
+            const auto child_ma = ov::as_type_ptr<op::MemoryAccess>(child);
+            const auto node_ma = ov::as_type_ptr<op::MemoryAccess>(node);
+            if ((child_ma && child_ma->is_memory_access_input_port(child_port)) ||
+                (node_ma && node_ma->is_memory_access_output_port(port))) {
                 potential_consumers.insert(child_expr_input);
                 continue;
             }
@@ -199,12 +222,20 @@ bool BufferInsertion::run(LoweredExprIR& linear_ir) {
     for (auto expr_it = linear_ir.begin(); expr_it != linear_ir.end(); expr_it++) {
         const auto expr = *expr_it;
         const auto node = (*expr_it)->get_node();
-        if (!ov::is_type<op::Brgemm>(node))
+        const auto ma = ov::as_type_ptr<op::MemoryAccess>(node);
+        if (!ma)
             continue;
 
-        std::vector<LoweredExprPort> loop_entries = {LoweredExprPort::make_input(expr, 0),
-                                                     LoweredExprPort::make_input(expr, 1)};
-        std::vector<LoweredExprPort> loop_exits = {LoweredExprPort::make_output(expr, 0)};
+        const auto input_ports = ma->get_memory_access_input_ports();
+        const auto output_ports = ma->get_memory_access_output_ports();
+        std::vector<LoweredExprPort> loop_entries(input_ports.size()), loop_exits(output_ports.size());
+        // C++17: for (auto const& [loop_id, loop_info] : loop_data_map)
+        for (const auto& p : input_ports) {
+            loop_entries[p.first] = LoweredExprPort::make_input(expr, p.first);
+        }
+        for (const auto& p : output_ports) {
+            loop_exits[p.first] = LoweredExprPort::make_output(expr, p.first);
+        }
 
         insertion(linear_ir, loop_manager, LoweredExpr::LOOP_NULL_ID, loop_entries, loop_exits);
     }
diff --git a/src/common/snippets/src/pass/lowered/insert_tail_loop.cpp b/src/common/snippets/src/pass/lowered/insert_tail_loop.cpp
index 0d7c5878ec9492..391d4cd7dd18ff 100644
--- a/src/common/snippets/src/pass/lowered/insert_tail_loop.cpp
+++ b/src/common/snippets/src/pass/lowered/insert_tail_loop.cpp
@@ -48,14 +48,17 @@ void InsertTailLoop::tail_transformations(LoweredExprIR& linear_ir,
                 }
             }
         } else if (const auto memory_access = std::dynamic_pointer_cast<ngraph::snippets::op::MemoryAccess>(op)) {
-            for (size_t i = 0; i < memory_access->get_input_port_count(); ++i) {
-                if (memory_access->get_input_count(i) > 1) {
-                    memory_access->set_input_count(tail_size, i);
+            // FIXME: C++17 const auto& [port, desc] : memory_access->get_memory_access_input_ports()
+            for (const auto p : memory_access->get_memory_access_input_ports()) {
+                const auto port = p.first;
+                if (memory_access->is_memory_access_input_port(port) && memory_access->get_input_count(port) > 1) {
+                    memory_access->set_input_count(tail_size, port);
                 }
             }
-            for (size_t i = 0; i < memory_access->get_output_port_count(); ++i) {
-                if (memory_access->get_output_count(i) > 1) {
-                    memory_access->set_output_count(tail_size, i);
+            for (const auto p : memory_access->get_memory_access_output_ports()) {
+                const auto port = p.first;
+                if (memory_access->is_memory_access_output_port(port) && memory_access->get_output_count(port) > 1) {
+                    memory_access->set_output_count(tail_size, port);
                 }
             }
         }
@@ -95,8 +98,9 @@ bool InsertTailLoop::run(LoweredExprIR& linear_ir) {
             return ov::is_type<op::Buffer>(parent_expr->get_node());
         };
         auto is_buffer_output = [&linear_ir](const TensorDescriptorPtr& output) {
-            const auto child_exprs_inputs = linear_ir.get_exprs_by_input(output);
-            return ov::is_type<op::Buffer>((*child_exprs_inputs.begin()).expr->get_node());
+            const auto& child_exprs_inputs = linear_ir.get_exprs_by_input(output);
+            return std::any_of(child_exprs_inputs.begin(), child_exprs_inputs.end(),
+                               [](const LoweredExprPort& lp) {return ov::is_type<op::Buffer>(lp.expr->get_node());});
         };
 
         const auto loop_end_expr = linear_ir.get_expr_by_node(loop_end);
diff --git a/src/common/snippets/src/pass/lowered/load_store_insertion.cpp b/src/common/snippets/src/pass/lowered/load_store_insertion.cpp
index 94e163747cca57..7a9cde9cf38a5e 100644
--- a/src/common/snippets/src/pass/lowered/load_store_insertion.cpp
+++ b/src/common/snippets/src/pass/lowered/load_store_insertion.cpp
@@ -59,8 +59,9 @@ bool LoadStoreInsertion::insert_load(LoweredExprIR& linear_ir, const LoweredExpr
         const auto& consumer_expr = consumer_input.expr;
         const auto port = consumer_input.port;
         const auto& consumer = consumer_expr->get_node();
-        if (ov::is_type<op::Load>(consumer) || ov::is_type<op::Brgemm>(consumer))
-            continue;
+        const auto ma = ov::as_type_ptr<op::MemoryAccess>(consumer);
+        if (ma && ma->is_memory_access_input_port(port))
+            return false;
 
         // Find Inner Loop
         const auto& loop_ids = consumer_expr->get_loop_ids();
@@ -97,7 +98,8 @@ bool LoadStoreInsertion::insert_store(LoweredExprIR& linear_ir, const LoweredExp
     const auto& parent_expr = parent_output.expr;
     const auto port = parent_output.port;
     const auto& parent = parent_expr->get_node();
-    if (ov::is_type<op::Store>(parent) || ov::is_type<op::Brgemm>(parent))
+    const auto ma = ov::as_type_ptr<op::MemoryAccess>(parent);
+    if (ma && ma->is_memory_access_output_port(port))
         return false;
 
     // Find Inner Loop
diff --git a/src/common/snippets/src/pass/lowered/loop_init.cpp b/src/common/snippets/src/pass/lowered/loop_init.cpp
index 4c888d290f0501..9ec7904551e0e1 100644
--- a/src/common/snippets/src/pass/lowered/loop_init.cpp
+++ b/src/common/snippets/src/pass/lowered/loop_init.cpp
@@ -24,7 +24,8 @@ void filter_ports(LoweredExprIR& linear_ir,
         const auto& expr = loop_entry_point.expr;
         const auto port = loop_entry_point.port;
         const auto node = expr->get_node();
-        if (is_type<op::Load>(node) || is_type<op::BroadcastLoad>(node)) {
+        const auto ma = ov::as_type_ptr<op::MemoryAccess>(node);
+        if (ma && ma->is_memory_access_input_port(port)) {
             const auto& parent_expr = linear_ir.get_expr_by_output(expr->get_inputs()[port]).expr;
             const auto& parent = parent_expr->get_node();
             // Todo: Sometimes several Load in one Loop read data from the same Node
@@ -36,8 +37,10 @@ void filter_ports(LoweredExprIR& linear_ir,
     }
 
     for (const auto& loop_exit_point : loop_exits) {
-        const auto expr = loop_exit_point.expr;
-        if (is_type<op::Store>(expr->get_node())) {
+        const auto& expr = loop_exit_point.expr;
+        const auto port = loop_exit_point.port;
+        const auto ma = ov::as_type_ptr<op::MemoryAccess>(expr->get_node());
+        if (ma && ma->is_memory_access_output_port(port)) {
             new_loop_exits.push_back(loop_exit_point);
         }
     }
@@ -141,6 +144,57 @@ std::vector<int64_t> LoopInit::init_element_type_sizes(const std::vector<Lowered
     return element_types;
 }
 
+void LoopInit::reuse_buffer_increments(std::vector<int64_t>& ptr_increments,
+                                       std::vector<int64_t>& finalization_offsets,
+                                       const LoweredExprIR& linear_ir,
+                                       const std::vector<LoweredExprPort>& loop_inputs,
+                                       const std::vector<LoweredExprPort>& loop_outputs) {
+    // Note: Buffer always employ inplace logics by default. It means that if a loop has both
+    // an input and an output connected to Buffers, the corresponding register should nevertheless be
+    // incremented only once (because when the input reg is incremented, output incremented automatically).
+    // This condition should be removed when Buffers stop being inplace by default.
+    std::vector<size_t> buffer_idx{};
+    const auto input_count = loop_inputs.size();
+    const auto output_count = loop_outputs.size();
+    for (size_t i = 0; i < input_count; ++i) {
+        const auto& loop_input = loop_inputs[i];
+        const auto& expr = loop_input.expr;
+        const auto port = loop_input.port;
+        const auto parent_output = linear_ir.get_expr_by_output(expr->get_inputs()[port]);
+        if (ov::is_type<op::Buffer>(parent_output.expr->get_node()))
+            buffer_idx.push_back(i);
+    }
+    for (size_t i = 0; i < output_count; ++i) {
+        const auto& loop_output = loop_outputs[i];
+        const auto& expr = loop_output.expr;
+        const auto port = loop_output.port;
+        const auto consumer_inputs = linear_ir.get_exprs_by_input(expr->get_outputs()[port]);
+        size_t buffer_count = 0;
+        size_t loop_count = 0;
+        for (const auto& consumer_input : consumer_inputs) {
+            const auto& child_node = consumer_input.expr->get_node();
+            if (ov::is_type<op::Buffer>(child_node)) {
+                buffer_count++;
+                buffer_idx.push_back(input_count + i);
+            } else if (ov::is_type<op::LoopEnd>(child_node)) {
+                loop_count++;
+            }
+        }
+        if (buffer_count > 0) {
+            OPENVINO_ASSERT((buffer_count == 1) && (buffer_count + loop_count == consumer_inputs.size()),
+                            "Loop output must have not more than 1 Buffer");
+        }
+    }
+
+    if (buffer_idx.size() > 1) {
+        for (size_t i = 0; i < buffer_idx.size() - 1; i++) {
+            const auto idx_to_drop = buffer_idx[i];
+            ptr_increments[idx_to_drop] = 0;
+            finalization_offsets[idx_to_drop] = 0;
+        }
+    }
+}
+
 bool LoopInit::insertion(LoweredExprIR& linear_ir, const LoweredExprIR::LoweredLoopManager::LoweredLoopInfoPtr& loop_info,
                          size_t loop_id, size_t dim_idx, bool has_outer_loop) {
     auto loop_entries = loop_info->entry_exprs;
@@ -152,8 +206,10 @@ bool LoopInit::insertion(LoweredExprIR& linear_ir, const LoweredExprIR::LoweredL
     LoweredExprIR::LoweredLoopManager::get_loop_bounds(linear_ir, loop_entries, loop_exits, loop_begin_pos, loop_end_pos, loop_id);
 
     filter_ports(linear_ir, loop_entries, loop_exits);
-    const auto ptr_increments = init_ptr_increments(loop_entries, loop_exits, dim_idx);
-    const auto finalization_offsets = init_finalization_offsets(ptr_increments, work_amount);
+
+    auto ptr_increments = init_ptr_increments(loop_entries, loop_exits, dim_idx);
+    auto finalization_offsets = init_finalization_offsets(ptr_increments, work_amount);
+    reuse_buffer_increments(ptr_increments, finalization_offsets, linear_ir, loop_entries, loop_exits);
     const auto io_data_sizes = init_element_type_sizes(loop_entries, loop_exits);
 
     const auto& loop_begin = std::make_shared<op::LoopBegin>();
diff --git a/src/common/snippets/src/pass/lowered/loop_markup.cpp b/src/common/snippets/src/pass/lowered/loop_markup.cpp
index 5fd3f3b7d19778..bc0a159638fd42 100644
--- a/src/common/snippets/src/pass/lowered/loop_markup.cpp
+++ b/src/common/snippets/src/pass/lowered/loop_markup.cpp
@@ -35,10 +35,6 @@ bool LoopMarkup::run(LoweredExprIR& linear_ir) {
         const auto& node = expr->get_node();
         if (is_not_start_point(node))
             continue;
-        if (ov::is_type<op::Brgemm>(node)) {
-            loop_manager->skipped_mark(expr_it, std::next(expr_it), loop_depth);
-            continue;
-        }
 
         auto loop_begin_pos = expr_it;
         auto loop_end_pos = loop_begin_pos;
@@ -46,8 +42,11 @@ bool LoopMarkup::run(LoweredExprIR& linear_ir) {
         const auto& outputs = expr->get_outputs();
         const auto& loop_inner_layout = outputs.front()->get_layout();
         const auto& loop_inner_subtensor = outputs.front()->get_subtensor();
+        const bool loop_is_outside = expr->is_outside_loop();
+        const bool loop_is_inside = !loop_is_outside;
 
-        bool is_inside = true;
+        bool current_is_outside = loop_is_outside;
+        bool current_is_inside = loop_is_inside;
         do {
             const auto& prev_expr = *loop_end_pos;
             loop_end_pos++;
@@ -58,25 +57,29 @@ bool LoopMarkup::run(LoweredExprIR& linear_ir) {
             // If iterator is the last, we should finish Loop
             const auto& current_expr = *loop_end_pos;
             const auto& current_node = current_expr->get_node();
-            if (ov::is_type<op::Brgemm>(current_node) ||
-                ov::is_type<opset1::Softmax>(current_node) ||
+            if (ov::is_type<opset1::Softmax>(current_node) ||  // Softmax is marked in decomposition
                 ov::is_type<opset1::Result>(current_node) ||
                 ov::is_type<opset1::Constant>(current_node))
                 break;
 
-            // If the next expr isn't real customer of prev expr we should finish Loop
             const auto& ins = loop_end_pos->get()->get_inputs();
+            current_is_inside = std::all_of(ins.begin(), ins.end(),
+                                          [&loop_inner_layout, &loop_inner_subtensor](const TensorDescriptorPtr& td) {
+                                              return td->get_layout() == loop_inner_layout &&
+                                                     td->get_subtensor() == loop_inner_subtensor; });
+            // If the next expr isn't real customer of prev expr we should finish Loop
             auto connected = [&](const TensorDescriptorPtr& td) {return linear_ir.get_expr_by_output(td).expr == prev_expr;};
-            if (std::none_of(ins.begin(), ins.end(), connected))
+            if (current_is_inside && std::none_of(ins.begin(), ins.end(), connected))
                 break;
 
-            is_inside &= std::all_of(ins.begin(), ins.end(),
-                                     [&loop_inner_layout, &loop_inner_subtensor](const TensorDescriptorPtr& td) {
-                                        return td->get_layout() == loop_inner_layout &&
-                                               td->get_subtensor() == loop_inner_subtensor; });
-        } while (is_inside);
+            current_is_outside = current_expr->is_outside_loop();
+        } while (current_is_inside == loop_is_inside && current_is_outside == loop_is_outside);
+
+        if (loop_is_inside)
+            loop_manager->mark_loop(linear_ir, loop_begin_pos, loop_end_pos, loop_depth, m_vector_size);
+        else if (loop_is_outside)
+            loop_manager->skipped_mark(loop_begin_pos, loop_end_pos, loop_depth);
 
-        loop_manager->mark_loop(linear_ir, loop_begin_pos, loop_end_pos, loop_depth, m_vector_size);
         expr_it = std::prev(loop_end_pos);
     }
 
diff --git a/src/common/snippets/src/pass/lowered/propagate_layout.cpp b/src/common/snippets/src/pass/lowered/propagate_layout.cpp
index 25e47f1b3ddedf..688826c5401d36 100644
--- a/src/common/snippets/src/pass/lowered/propagate_layout.cpp
+++ b/src/common/snippets/src/pass/lowered/propagate_layout.cpp
@@ -33,7 +33,7 @@ bool PropagateLayout::run(LoweredExprIR& linear_ir) {
                 for (const auto& child_input : child_exprs_inputs) {
                     const auto child = child_input.expr;
                     const auto& n = child->get_node();
-                    if (is_type<op::MemoryAccess>(n) || is_type<op::BroadcastLoad>(n)) {
+                    if (is_type<op::Load>(n) || is_type<op::BroadcastLoad>(n)) {
                         // Note: this limitation could be relaxed to multiple ops,
                         // but all of them must have the same shape and layout
                         if (!child_layout.empty() && child->get_outputs().front()->get_layout() != child_layout)
diff --git a/src/common/snippets/src/pass/matmul_to_brgemm.cpp b/src/common/snippets/src/pass/matmul_to_brgemm.cpp
index f82d1c3eea9604..42b3775e2536bd 100644
--- a/src/common/snippets/src/pass/matmul_to_brgemm.cpp
+++ b/src/common/snippets/src/pass/matmul_to_brgemm.cpp
@@ -7,6 +7,7 @@
 #include "snippets/pass/matmul_to_brgemm.hpp"
 
 #include "snippets/snippets_isa.hpp"
+#include "snippets/utils.hpp"
 
 #include "ngraph/opsets/opset1.hpp"
 #include "ngraph/rt_info.hpp"
@@ -41,6 +42,8 @@ MatMulToBrgemm::MatMulToBrgemm() {
         const std::vector<size_t> tensor = brgemm->get_output_shape(0);
         const std::vector<size_t> subtensor = {tensor[tensor.size() - 2], tensor[tensor.size() - 1]};
         ngraph::snippets::set_tensor_descriptor_ptr(brgemm->output(0), std::make_shared<TensorDescriptor>(tensor, subtensor));
+        // TODO: At the moment Brgemm is executed outside Loop. When Blocking is supported, remove it
+        utils::set_outside_loop_value(brgemm, true);
         return true;
     };
 
diff --git a/src/common/snippets/src/pass/reset_buffer.cpp b/src/common/snippets/src/pass/reset_buffer.cpp
deleted file mode 100644
index f1521756a33754..00000000000000
--- a/src/common/snippets/src/pass/reset_buffer.cpp
+++ /dev/null
@@ -1,114 +0,0 @@
-// Copyright (C) 2023 Intel Corporation
-// SPDX-License-Identifier: Apache-2.0
-//
-
-#include <snippets/itt.hpp>
-#include <ngraph/rt_info.hpp>
-#include <ngraph/pattern/op/wrap_type.hpp>
-
-#include "snippets/snippets_isa.hpp"
-#include "snippets/pass/reset_buffer.hpp"
-#include "snippets/op/subgraph.hpp"
-
-
-namespace {
-void normalize_ptr_and_offsets(const ov::NodeVector &io, std::vector<int64_t> &ptr_increments, std::vector<int64_t> &finalization_offsets) {
-    bool there_is_buffer = false;
-    // Iterations are from end because before we correct finalization offsets for Loop outputs (io = inputs + outputs)
-    for (int i = static_cast<int>(io.size()) - 1; i >= 0; --i) {
-        if (ov::is_type<ngraph::snippets::op::Buffer>(io[i])) {
-            if (there_is_buffer) {
-                ptr_increments[i] = 0;
-                finalization_offsets[i] = 0;
-            } else {
-                there_is_buffer = true;
-            }
-        }
-    }
-}
-} // namespace
-
-int64_t ngraph::snippets::pass::ResetBufferState::calculate_required_finalization_offsets(const size_t back_step, const size_t target_work_amount) {
-    return target_work_amount != 1 ? -static_cast<int64_t>(back_step) : 0;
-}
-
-ngraph::snippets::pass::ResetBufferState::ResetBufferState() {
-    MATCHER_SCOPE(ResetBufferState);
-
-    // Match on LoopEnd is enough at the moment because Buffer op may be only after MatMul and LoopEnd, but
-    // MatMul doesn't change Buffer memory pointer after execution
-    auto m_loop_end = ngraph::pattern::wrap_type<op::LoopEnd>();
-
-    auto callback = [=](ngraph::pattern::Matcher &m) {
-        OV_ITT_SCOPED_TASK(ngraph::pass::itt::domains::SnippetsTransform, "Snippets::op::ResetBufferState")
-        auto& pattern_to_output = m.get_pattern_value_map();
-
-        const auto loop_end = ngraph::as_type_ptr<op::LoopEnd>(pattern_to_output.at(m_loop_end).get_node_shared_ptr());
-        const auto loop_begin = loop_end->get_loop_begin();
-
-        const auto i_size = loop_begin->get_input_size();
-        const auto o_size = loop_end->get_output_size();
-        const auto count_io = i_size + o_size;
-        std::vector<ov::PartialShape> body_shapes(count_io);
-        ov::NodeVector io(count_io);
-        for (size_t i = 0; i < i_size; ++i) {
-            body_shapes[i] = loop_begin->input_value(i).get_partial_shape();
-            io[i] = loop_begin->input_value(i).get_node_shared_ptr();
-            auto port_idx = loop_begin->input_value(i).get_index();
-            while (std::dynamic_pointer_cast<op::LoopBase>(io[i])) {
-                const auto source_output = io[i]->input_value(port_idx);
-                io[i] = source_output.get_node_shared_ptr();
-                port_idx = source_output.get_index();
-            }
-        }
-        for (size_t i = 0; i < o_size; ++i) {
-            body_shapes[i_size + i] = loop_end->output(i).get_partial_shape();
-            // check for first target input is enough for Buffer searching because operations can have only single Buffer per each output port as op
-            auto consumer = *loop_end->output(i).get_target_inputs().begin();
-            auto port_idx = consumer.get_index();
-            io[i_size + i] = consumer.get_node()->shared_from_this();
-            while (std::dynamic_pointer_cast<op::LoopBase>(io[i_size + i])) {
-                auto consumer = *io[i_size + i]->output(port_idx).get_target_inputs().begin();
-                port_idx = consumer.get_index();
-                io[i_size + i] = consumer.get_node()->shared_from_this();
-            }
-        }
-
-        auto ptr_increments = loop_end->get_ptr_increments();
-        auto finalization_offsets = loop_end->get_finalization_offsets();
-
-        // If after Loop there is immediately Buffer, we should reset the Buffer ptr for the next calculations
-        for (size_t i = 0; i < o_size; ++i) {
-            // check for first target input is enough for Buffer searching because operations can have only single Buffer per each output port as op
-            const auto consumer = loop_end->output(i).get_target_inputs().begin()->get_node();
-            if (const auto buffer = ov::as_type_ptr<ngraph::snippets::op::Buffer>(consumer->shared_from_this())) {
-                // To calculate finalization offset we should know index of nesting Loop
-                auto loop_index = 0lu;
-                auto loop = loop_end->input_value(i).get_node_shared_ptr();
-                auto port_idx = loop_end->input_value(i).get_index();
-                while (std::dynamic_pointer_cast<op::LoopEnd>(loop)) {
-                    const auto source_output = loop->input_value(port_idx);
-                    loop = source_output.get_node_shared_ptr();
-                    port_idx = source_output.get_index();
-                    loop_index++;
-                }
-                const auto result_shape = buffer->get_allocation_shape();
-                NGRAPH_CHECK(loop_index < result_shape.size(), "Buffer has invalid Loop index and allocation shape rank");
-                const auto work_amount = std::accumulate(result_shape.rbegin(), result_shape.rbegin() + loop_index + 1, size_t(1), std::multiplies<size_t>());
-                finalization_offsets[i_size + i] =
-                        calculate_required_finalization_offsets(work_amount, *(result_shape.rbegin() + loop_index));
-            }
-        }
-
-        // If there are several Buffers on I/O we should remember that all Buffer have the register,
-        // so we should update ptr for only one Buffer
-        normalize_ptr_and_offsets(io, ptr_increments, finalization_offsets);
-        loop_end->set_finalization_offsets(finalization_offsets);
-        loop_end->set_ptr_increments(ptr_increments);
-
-        return true;
-    };
-
-    auto m = std::make_shared<ngraph::pattern::Matcher>(m_loop_end, matcher_name);
-    register_matcher(m, callback);
-}
diff --git a/src/common/snippets/src/pass/vector_to_scalar.cpp b/src/common/snippets/src/pass/vector_to_scalar.cpp
deleted file mode 100644
index 4f98a49de4eedd..00000000000000
--- a/src/common/snippets/src/pass/vector_to_scalar.cpp
+++ /dev/null
@@ -1,49 +0,0 @@
-// Copyright (C) 2018-2023 Intel Corporation
-// SPDX-License-Identifier: Apache-2.0
-//
-
-#include <snippets/itt.hpp>
-
-#include "snippets/pass/vector_to_scalar.hpp"
-#include "snippets/snippets_isa.hpp"
-
-#include <ngraph/rt_info.hpp>
-#include <ngraph/pattern/op/wrap_type.hpp>
-
-ngraph::snippets::pass::SetScalarCountForLoad::SetScalarCountForLoad() {
-    MATCHER_SCOPE(SetScalarCountForLoad);
-    register_matcher(std::make_shared<ngraph::pattern::Matcher>(
-        ngraph::pattern::wrap_type<ngraph::snippets::op::Load>(), matcher_name),
-            [this](ngraph::pattern::Matcher &m) {
-            OV_ITT_SCOPED_TASK(ngraph::pass::itt::domains::SnippetsTransform, "Snippets::op::SetScalarCountForLoad_callback")
-            auto root = m.get_match_root();
-            if (transformation_callback(root))
-                return false;
-
-            const auto load = ov::as_type_ptr<ngraph::snippets::op::Load>(root);
-            if (!load)
-                return false;
-
-            load->set_input_count(1lu, 0);
-            return true;
-        });
-}
-
-ngraph::snippets::pass::SetScalarCountForStore::SetScalarCountForStore() {
-    MATCHER_SCOPE(SetScalarCountForStore);
-    register_matcher(std::make_shared<ngraph::pattern::Matcher>(
-        ngraph::pattern::wrap_type<ngraph::snippets::op::Store>(), matcher_name),
-            [this](ngraph::pattern::Matcher &m) {
-            OV_ITT_SCOPED_TASK(ngraph::pass::itt::domains::SnippetsTransform, "Snippets::op::SetScalarCountForStore_callback")
-            auto root = m.get_match_root();
-            if (transformation_callback(root))
-                return false;
-
-            const auto store = ov::as_type_ptr<ngraph::snippets::op::Store>(root);
-            if (!store)
-                return false;
-
-            store->set_output_count(1lu, 0);
-            return true;
-        });
-}
diff --git a/src/common/snippets/src/utils.cpp b/src/common/snippets/src/utils.cpp
index 6587ff93fa69d2..5740120767f195 100644
--- a/src/common/snippets/src/utils.cpp
+++ b/src/common/snippets/src/utils.cpp
@@ -107,12 +107,8 @@ ov::PartialShape get_reordered_planar_shape(const ov::PartialShape& shape, const
 }
 
 ov::PartialShape get_port_planar_shape(const Output<Node>& out) {
-    std::vector<size_t> layout = get_node_output_layout(out.get_node_shared_ptr());
-    const auto& tensor = out.get_tensor_ptr();
-    if (!tensor)
-        throw ngraph_error("get_port_planar_shape can't be called for an uninitialized output tensor");
-    auto tensor_shape = tensor->get_partial_shape();
-    return get_reordered_planar_shape(tensor_shape, layout);
+    const auto& td = ngraph::snippets::get_tensor_descriptor_ptr(out);
+    return utils::get_reordered_planar_shape(ov::Shape{td->get_tensor()}, td->get_layout());
 }
 
 void set_transpose_output_layout(const ov::Output<Node>& port, const std::shared_ptr<opset1::Transpose>& node) {
@@ -126,6 +122,19 @@ void set_output_layout(const ov::Output<Node>& port, const std::vector<size_t>&
     rt_info["Layout"] = layout;
 }
 
+bool get_outside_loop_value(const std::shared_ptr<Node>& node) {
+    auto& rt_info = node->get_rt_info();
+    const auto& found = rt_info.find("snippets::is_outside_loop");
+    if (found == rt_info.end()) {
+        return false;  // Default value: Expression should be executed inside
+    }
+    return found->second.as<bool>();
+}
+void set_outside_loop_value(const std::shared_ptr<Node>& node, bool is_outside) {
+    auto& rt_info = node->get_rt_info();
+    rt_info["snippets::is_outside_loop"] = is_outside;
+}
+
 } // namespace utils
 } // namespace snippets
 } // namespace ngraph
diff --git a/src/common/snippets/tests/src/pass/set_scalar_count_for_load_and_store.cpp b/src/common/snippets/tests/src/pass/set_scalar_count_for_load_and_store.cpp
index 50448be3a5c38f..3875b905d34779 100644
--- a/src/common/snippets/tests/src/pass/set_scalar_count_for_load_and_store.cpp
+++ b/src/common/snippets/tests/src/pass/set_scalar_count_for_load_and_store.cpp
@@ -1,74 +1,74 @@
-// Copyright (C) 2018-2023 Intel Corporation
-// SPDX-License-Identifier: Apache-2.0
-//
+// // Copyright (C) 2018-2023 Intel Corporation
+// // SPDX-License-Identifier: Apache-2.0
+// //
 
-#include <gtest/gtest.h>
+// #include <gtest/gtest.h>
 
-#include <ngraph/function.hpp>
-#include <ngraph/pass/manager.hpp>
+// #include <ngraph/function.hpp>
+// #include <ngraph/pass/manager.hpp>
 
-#include <snippets/snippets_isa.hpp>
-#include <snippets/pass/vector_to_scalar.hpp>
+// #include <snippets/snippets_isa.hpp>
+// #include <snippets/pass/vector_to_scalar.hpp>
 
-#include <transformations/init_node_info.hpp>
+// #include <transformations/init_node_info.hpp>
 
-#include "common_test_utils/ngraph_test_utils.hpp"
+// #include "common_test_utils/ngraph_test_utils.hpp"
 
-using namespace testing;
-using namespace ngraph;
+// using namespace testing;
+// using namespace ngraph;
 
-//  todo: Rewrite this test using Snippets test infrastructure. See ./include/canonicalization.hpp for example
+// //  todo: Rewrite this test using Snippets test infrastructure. See ./include/canonicalization.hpp for example
 
-size_t get_count(const std::shared_ptr<Function>& f, const std::string& name, bool is_load = true) {
-    size_t count = std::numeric_limits<size_t>::max();
-    for (auto op : f->get_ops()) {
-        if (op->get_friendly_name() == name) {
-            if (const auto memory_access = std::dynamic_pointer_cast<snippets::op::MemoryAccess>(op)) {
-                count = is_load ? memory_access->get_input_offset(0)
-                                : memory_access->get_output_offset(0);
-            }
-        }
-    }
-    return count;
-}
+// size_t get_count(const std::shared_ptr<Function>& f, const std::string& name, bool is_load = true) {
+//     size_t count = std::numeric_limits<size_t>::max();
+//     for (auto op : f->get_ops()) {
+//         if (op->get_friendly_name() == name) {
+//             if (const auto memory_access = std::dynamic_pointer_cast<snippets::op::MemoryAccess>(op)) {
+//                 count = is_load ? memory_access->get_input_offset(0)
+//                                 : memory_access->get_output_offset(0);
+//             }
+//         }
+//     }
+//     return count;
+// }
 
-TEST(TransformationTests, SetScalarCountForLoadStore) {
-    std::shared_ptr<Function> f(nullptr), f_ref(nullptr);
-    const auto count = 16;
-    {
-        auto data = std::make_shared<opset1::Parameter>(element::f32, Shape{2, 2});
-        auto load = std::make_shared<snippets::isa::Load>(data, count);
-        load->set_friendly_name("load");
-        auto neg = std::make_shared<opset1::Negative>(load);
-        auto store = std::make_shared<snippets::isa::Store>(neg, count);
-        store->set_friendly_name("store");
-        f = std::make_shared<Function>(NodeVector{store}, ParameterVector{data});
+// TEST(TransformationTests, SetScalarCountForLoadStore) {
+//     std::shared_ptr<Function> f(nullptr), f_ref(nullptr);
+//     const auto count = 16;
+//     {
+//         auto data = std::make_shared<opset1::Parameter>(element::f32, Shape{2, 2});
+//         auto load = std::make_shared<snippets::isa::Load>(data, count);
+//         load->set_friendly_name("load");
+//         auto neg = std::make_shared<opset1::Negative>(load);
+//         auto store = std::make_shared<snippets::isa::Store>(neg, count);
+//         store->set_friendly_name("store");
+//         f = std::make_shared<Function>(NodeVector{store}, ParameterVector{data});
 
-        pass::Manager m;
-        m.register_pass<ov::pass::InitNodeInfo>();
-        m.register_pass<snippets::pass::SetScalarCountForLoad>();
-        m.register_pass<snippets::pass::SetScalarCountForStore>();
-        m.run_passes(f);
-        ASSERT_NO_THROW(check_rt_info(f));
-    }
-    {
-        auto data = std::make_shared<opset1::Parameter>(element::f32, Shape{2, 2});
-        auto load = std::make_shared<snippets::isa::Load>(data, 1lu);
-        load->set_friendly_name("load_ref");
-        auto neg = std::make_shared<opset1::Negative>(load);
-        auto store = std::make_shared<snippets::isa::Store>(neg, 1lu);
-        store->set_friendly_name("store_ref");
-        f_ref = std::make_shared<Function>(NodeVector{store}, ParameterVector{data});
-    }
+//         pass::Manager m;
+//         m.register_pass<ov::pass::InitNodeInfo>();
+//         m.register_pass<snippets::pass::SetScalarCountForLoad>();
+//         m.register_pass<snippets::pass::SetScalarCountForStore>();
+//         m.run_passes(f);
+//         ASSERT_NO_THROW(check_rt_info(f));
+//     }
+//     {
+//         auto data = std::make_shared<opset1::Parameter>(element::f32, Shape{2, 2});
+//         auto load = std::make_shared<snippets::isa::Load>(data, 1lu);
+//         load->set_friendly_name("load_ref");
+//         auto neg = std::make_shared<opset1::Negative>(load);
+//         auto store = std::make_shared<snippets::isa::Store>(neg, 1lu);
+//         store->set_friendly_name("store_ref");
+//         f_ref = std::make_shared<Function>(NodeVector{store}, ParameterVector{data});
+//     }
 
-    auto res = compare_functions(f, f_ref);
-    ASSERT_TRUE(res.first) << res.second;
+//     auto res = compare_functions(f, f_ref);
+//     ASSERT_TRUE(res.first) << res.second;
 
-    auto load_count = get_count(f, "load");
-    auto load_count_ref = get_count(f_ref, "load_ref");
-    ASSERT_EQ(load_count, load_count_ref);
+//     auto load_count = get_count(f, "load");
+//     auto load_count_ref = get_count(f_ref, "load_ref");
+//     ASSERT_EQ(load_count, load_count_ref);
 
-    auto store_count = get_count(f, "store", false);
-    auto store_count_ref = get_count(f_ref, "store_ref", false);
-    ASSERT_EQ(store_count, store_count_ref);
-}
+//     auto store_count = get_count(f, "store", false);
+//     auto store_count_ref = get_count(f_ref, "store_ref", false);
+//     ASSERT_EQ(store_count, store_count_ref);
+// }
diff --git a/src/common/snippets/tests/src/registers.cpp b/src/common/snippets/tests/src/registers.cpp
index e9d7c503802142..f3e369838ee5b2 100644
--- a/src/common/snippets/tests/src/registers.cpp
+++ b/src/common/snippets/tests/src/registers.cpp
@@ -1,175 +1,175 @@
-// Copyright (C) 2018-2023 Intel Corporation
-// SPDX-License-Identifier: Apache-2.0
-//
-
-#include <gtest/gtest.h>
-
-#include <ngraph/function.hpp>
-#include <ngraph/pass/manager.hpp>
-
-#include <snippets/snippets_isa.hpp>
-#include <snippets/pass/assign_registers.hpp>
-
-#include <transformations/init_node_info.hpp>
-
-#include "common_test_utils/ngraph_test_utils.hpp"
-#include "lowering_utils.hpp"
-
-using namespace testing;
-using namespace ngraph;
-
-//  todo: Rewrite this test using Snippets test infrastructure. See ./include/canonicalization.hpp for example
-
-TEST(TransformationTests, AssignRegisters) {
-    const auto generator = std::make_shared<ov::test::snippets::DummyGenerator>();
-    std::shared_ptr<Function> f(nullptr);
-    {
-        auto p0 = std::make_shared<opset1::Parameter>(element::f32, Shape(1));
-        auto p1 = std::make_shared<opset1::Parameter>(element::f32, Shape(1));
-        p0->set_friendly_name("p00");
-        p1->set_friendly_name("p01");
-        auto y00 = std::make_shared<snippets::isa::Load>(p0); y00->set_friendly_name("y00");
-        auto y01 = std::make_shared<snippets::isa::Load>(p1); y01->set_friendly_name("y01");
-        auto y02 = std::make_shared<opset1::Multiply>(y00, y01); y02->set_friendly_name("y02");
-        auto s00 = std::make_shared<snippets::isa::Store>(y02); s00->set_friendly_name("y03");
-        s00->set_friendly_name("s00");
-        f = std::make_shared<Function>(NodeVector{s00}, ParameterVector{p0, p1});
-        // Note that testing the result is not strictly necessary, since the Result doesn't emit any code
-        f->get_result()->set_friendly_name("r00");
-
-        pass::Manager m;
-        m.register_pass<ov::pass::InitNodeInfo>();
-        std::function<snippets::Generator::opRegType(const std::shared_ptr<Node>& op)> reg_type_mapper =
-            [=](const std::shared_ptr<Node>& op) -> snippets::Generator::opRegType {
-            return generator->get_op_reg_type(op);
-        };
-        m.register_pass<snippets::pass::AssignRegisters>(reg_type_mapper);
-
-        m.run_passes(f);
-        ASSERT_NO_THROW(check_rt_info(f));
-    }
-
-    /* Instead of comparing to a reference function check that registers are correctly assigned and stored to runtime
-     * info. Note that Parameters and Store rt_info contains gpr indexes, while general op's rt_info contain vector
-     * indexes */
-    {
-        std::map<std::string, size_t> ref_registers {
-            {"p00", 0}, // gpr
-            {"p01", 1}, // gpr
-            {"y00", 0},
-            {"y01", 1},
-            {"y02", 2},
-            {"s00", 2}, // gpr
-            {"r00", 2}  // gpr
-        };
-
-        auto total_ops = 0;
-        for (auto& op : f->get_ordered_ops()) {
-            for (const auto& output : op->outputs()) {
-                const auto& rt = output.get_tensor_ptr()->get_rt_info();
-                auto it_rt = rt.find("reginfo");
-                if (it_rt != rt.end()) {
-                    auto reg = it_rt->second.as<size_t>();
-                    ASSERT_TRUE(ref_registers[op->get_friendly_name()] == reg);
-                    total_ops++;
-                }
-            }
-        }
-        ASSERT_EQ(total_ops, ref_registers.size());
-    }
-}
-
-TEST(TransformationTests, AssignRegisters2) {
-    const auto generator = std::make_shared<ov::test::snippets::DummyGenerator>();
-    std::shared_ptr<Function> f(nullptr);
-    {
-        auto p0 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
-        auto p1 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
-        auto p2 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
-        auto p3 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
-        auto p4 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
-        auto p5 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
-        auto p6 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
-        auto p7 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
-        p0->set_friendly_name("p00");
-        p1->set_friendly_name("p01");
-        p2->set_friendly_name("p02");
-        p3->set_friendly_name("p03");
-        p4->set_friendly_name("p04");
-        p5->set_friendly_name("p05");
-        p6->set_friendly_name("p06");
-        p7->set_friendly_name("p07");
-
-        auto c0 = std::make_shared<snippets::isa::Scalar>(ngraph::element::f32, Shape(), 3.14f); c0->set_friendly_name("r00");
-        auto c1 = std::make_shared<snippets::isa::Scalar>(ngraph::element::f32, Shape(), 6.6260701e-34f); c1->set_friendly_name("r01");
-
-        auto y00 = std::make_shared<snippets::isa::Load>(p0); y00->set_friendly_name("r02");
-        auto y01 = std::make_shared<snippets::isa::Load>(p1); y01->set_friendly_name("r03");
-        auto y02 = std::make_shared<opset1::Multiply>(y00, c0); y02->set_friendly_name("r04");
-        auto y03 = std::make_shared<opset1::Multiply>(y01, c1); y03->set_friendly_name("r05");
-        auto y04 = std::make_shared<snippets::isa::Load>(p2); y04->set_friendly_name("r06");
-        auto y05 = std::make_shared<snippets::isa::Load>(p3); y05->set_friendly_name("r07");
-        auto y06 = std::make_shared<opset1::Add>(y02, y03); y06->set_friendly_name("r08");
-        auto y07 = std::make_shared<opset1::Multiply>(y04, c0); y07->set_friendly_name("r09");
-        auto y08 = std::make_shared<opset1::Multiply>(y05, c1); y08->set_friendly_name("r10");
-        auto y09 = std::make_shared<snippets::isa::Load>(p4); y09->set_friendly_name("r11");
-        auto y10 = std::make_shared<snippets::isa::Load>(p5); y10->set_friendly_name("r12");
-        auto y11 = std::make_shared<opset1::Add>(y07, y08); y11->set_friendly_name("r13");
-        auto y12 = std::make_shared<opset1::Multiply>(y09, c0); y12->set_friendly_name("r14");
-        auto y13 = std::make_shared<opset1::Multiply>(y10, c1); y13->set_friendly_name("r15");
-        auto y14 = std::make_shared<snippets::isa::Load>(p6); y14->set_friendly_name("r16");
-        auto y15 = std::make_shared<opset1::Add>(y12, y13); y15->set_friendly_name("r17");
-        auto y16 = std::make_shared<snippets::isa::Load>(p7); y16->set_friendly_name("r18");
-        auto y17 = std::make_shared<opset1::Multiply>(y14, c0); y17->set_friendly_name("r19");
-        auto y18 = std::make_shared<opset1::Multiply>(y16, c1); y18->set_friendly_name("r20");
-        auto y19 = std::make_shared<opset1::Add>(y06, y11); y19->set_friendly_name("r21");
-        auto y20 = std::make_shared<opset1::Add>(y17, y18); y20->set_friendly_name("r22");
-        auto y21 = std::make_shared<opset1::Add>(y15, y19); y21->set_friendly_name("r23");
-        auto y22 = std::make_shared<opset1::Add>(y20, y21); y22->set_friendly_name("r24");
-        auto s00 = std::make_shared<snippets::isa::Store>(y22);
-        s00->set_friendly_name("s00");
-
-        f = std::make_shared<Function>(NodeVector{s00}, ParameterVector{p0, p1, p2, p3, p4, p5, p6, p7});
-        f->get_result()->set_friendly_name("res00");
-
-        pass::Manager m;
-        m.register_pass<ov::pass::InitNodeInfo>();
-        std::function<snippets::Generator::opRegType(const std::shared_ptr<Node>& op)> reg_type_mapper =
-            [=](const std::shared_ptr<Node>& op) -> snippets::Generator::opRegType {
-            return generator->get_op_reg_type(op);
-        };
-        m.register_pass<snippets::pass::AssignRegisters>(reg_type_mapper);
-        m.run_passes(f);
-        ASSERT_NO_THROW(check_rt_info(f));
-    }
-
-    // instead of comparing to a reference function check that registers are correctly assigned
-    // and stored to runtime info
-    {
-        std::map<std::string, size_t> ref_registers {
-            {"p00", 0}, {"p01", 1}, {"p02", 2}, {"p03", 3}, {"p04", 4}, {"p05", 5},
-            {"p06", 6}, {"p07", 7},
-            {"r00", 1}, {"r01", 3}, {"r02", 5}, {"r03", 5}, {"r04", 2}, {"r05", 6},
-            {"r06", 6}, {"r07", 6}, {"r08", 5}, {"r09", 2}, {"r10", 1}, {"r11", 4},
-            {"r12", 4}, {"r13", 6}, {"r14", 2}, {"r15", 5}, {"r16", 0}, {"r17", 4},
-            {"r18", 0}, {"r19", 2}, {"r20", 4}, {"r21", 1}, {"r22", 0}, {"r23", 6},
-            {"r24", 1},
-            {"s00", 8},
-            {"res00", 8}
-        };
-
-        auto total_ops = 0;
-        for (auto& op : f->get_ordered_ops()) {
-            for (const auto& output : op->outputs()) {
-                const auto& rt = output.get_tensor_ptr()->get_rt_info();
-                auto it_rt = rt.find("reginfo");
-                if (it_rt != rt.end()) {
-                    auto reg = it_rt->second.as<size_t>();
-                    ASSERT_TRUE(ref_registers[op->get_friendly_name()] == reg);
-                    total_ops++;
-                }
-            }
-        }
-        ASSERT_EQ(total_ops, ref_registers.size());
-    }
-}
+// // Copyright (C) 2018-2023 Intel Corporation
+// // SPDX-License-Identifier: Apache-2.0
+// //
+
+// #include <gtest/gtest.h>
+
+// #include <ngraph/function.hpp>
+// #include <ngraph/pass/manager.hpp>
+
+// #include <snippets/snippets_isa.hpp>
+// #include <snippets/pass/assign_registers.hpp>
+
+// #include <transformations/init_node_info.hpp>
+
+// #include "common_test_utils/ngraph_test_utils.hpp"
+// #include "lowering_utils.hpp"
+
+// using namespace testing;
+// using namespace ngraph;
+
+// //  todo: Rewrite this test using Snippets test infrastructure. See ./include/canonicalization.hpp for example
+
+// TEST(TransformationTests, AssignRegisters) {
+//     const auto generator = std::make_shared<ov::test::snippets::DummyGenerator>();
+//     std::shared_ptr<Function> f(nullptr);
+//     {
+//         auto p0 = std::make_shared<opset1::Parameter>(element::f32, Shape(1));
+//         auto p1 = std::make_shared<opset1::Parameter>(element::f32, Shape(1));
+//         p0->set_friendly_name("p00");
+//         p1->set_friendly_name("p01");
+//         auto y00 = std::make_shared<snippets::isa::Load>(p0); y00->set_friendly_name("y00");
+//         auto y01 = std::make_shared<snippets::isa::Load>(p1); y01->set_friendly_name("y01");
+//         auto y02 = std::make_shared<opset1::Multiply>(y00, y01); y02->set_friendly_name("y02");
+//         auto s00 = std::make_shared<snippets::isa::Store>(y02); s00->set_friendly_name("y03");
+//         s00->set_friendly_name("s00");
+//         f = std::make_shared<Function>(NodeVector{s00}, ParameterVector{p0, p1});
+//         // Note that testing the result is not strictly necessary, since the Result doesn't emit any code
+//         f->get_result()->set_friendly_name("r00");
+
+//         pass::Manager m;
+//         m.register_pass<ov::pass::InitNodeInfo>();
+//         std::function<snippets::Generator::opRegType(const std::shared_ptr<Node>& op)> reg_type_mapper =
+//             [=](const std::shared_ptr<Node>& op) -> snippets::Generator::opRegType {
+//             return generator->get_op_reg_type(op);
+//         };
+//         m.register_pass<snippets::pass::AssignRegisters>(reg_type_mapper);
+
+//         m.run_passes(f);
+//         ASSERT_NO_THROW(check_rt_info(f));
+//     }
+
+//     /* Instead of comparing to a reference function check that registers are correctly assigned and stored to runtime
+//      * info. Note that Parameters and Store rt_info contains gpr indexes, while general op's rt_info contain vector
+//      * indexes */
+//     {
+//         std::map<std::string, size_t> ref_registers {
+//             {"p00", 0}, // gpr
+//             {"p01", 1}, // gpr
+//             {"y00", 0},
+//             {"y01", 1},
+//             {"y02", 2},
+//             {"s00", 2}, // gpr
+//             {"r00", 2}  // gpr
+//         };
+
+//         auto total_ops = 0;
+//         for (auto& op : f->get_ordered_ops()) {
+//             for (const auto& output : op->outputs()) {
+//                 const auto& rt = output.get_tensor_ptr()->get_rt_info();
+//                 auto it_rt = rt.find("reginfo");
+//                 if (it_rt != rt.end()) {
+//                     auto reg = it_rt->second.as<size_t>();
+//                     ASSERT_TRUE(ref_registers[op->get_friendly_name()] == reg);
+//                     total_ops++;
+//                 }
+//             }
+//         }
+//         ASSERT_EQ(total_ops, ref_registers.size());
+//     }
+// }
+
+// TEST(TransformationTests, AssignRegisters2) {
+//     const auto generator = std::make_shared<ov::test::snippets::DummyGenerator>();
+//     std::shared_ptr<Function> f(nullptr);
+//     {
+//         auto p0 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
+//         auto p1 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
+//         auto p2 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
+//         auto p3 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
+//         auto p4 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
+//         auto p5 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
+//         auto p6 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
+//         auto p7 = std::make_shared<opset1::Parameter>(ngraph::element::f32, Shape());
+//         p0->set_friendly_name("p00");
+//         p1->set_friendly_name("p01");
+//         p2->set_friendly_name("p02");
+//         p3->set_friendly_name("p03");
+//         p4->set_friendly_name("p04");
+//         p5->set_friendly_name("p05");
+//         p6->set_friendly_name("p06");
+//         p7->set_friendly_name("p07");
+
+//         auto c0 = std::make_shared<snippets::isa::Scalar>(ngraph::element::f32, Shape(), 3.14f); c0->set_friendly_name("r00");
+//         auto c1 = std::make_shared<snippets::isa::Scalar>(ngraph::element::f32, Shape(), 6.6260701e-34f); c1->set_friendly_name("r01");
+
+//         auto y00 = std::make_shared<snippets::isa::Load>(p0); y00->set_friendly_name("r02");
+//         auto y01 = std::make_shared<snippets::isa::Load>(p1); y01->set_friendly_name("r03");
+//         auto y02 = std::make_shared<opset1::Multiply>(y00, c0); y02->set_friendly_name("r04");
+//         auto y03 = std::make_shared<opset1::Multiply>(y01, c1); y03->set_friendly_name("r05");
+//         auto y04 = std::make_shared<snippets::isa::Load>(p2); y04->set_friendly_name("r06");
+//         auto y05 = std::make_shared<snippets::isa::Load>(p3); y05->set_friendly_name("r07");
+//         auto y06 = std::make_shared<opset1::Add>(y02, y03); y06->set_friendly_name("r08");
+//         auto y07 = std::make_shared<opset1::Multiply>(y04, c0); y07->set_friendly_name("r09");
+//         auto y08 = std::make_shared<opset1::Multiply>(y05, c1); y08->set_friendly_name("r10");
+//         auto y09 = std::make_shared<snippets::isa::Load>(p4); y09->set_friendly_name("r11");
+//         auto y10 = std::make_shared<snippets::isa::Load>(p5); y10->set_friendly_name("r12");
+//         auto y11 = std::make_shared<opset1::Add>(y07, y08); y11->set_friendly_name("r13");
+//         auto y12 = std::make_shared<opset1::Multiply>(y09, c0); y12->set_friendly_name("r14");
+//         auto y13 = std::make_shared<opset1::Multiply>(y10, c1); y13->set_friendly_name("r15");
+//         auto y14 = std::make_shared<snippets::isa::Load>(p6); y14->set_friendly_name("r16");
+//         auto y15 = std::make_shared<opset1::Add>(y12, y13); y15->set_friendly_name("r17");
+//         auto y16 = std::make_shared<snippets::isa::Load>(p7); y16->set_friendly_name("r18");
+//         auto y17 = std::make_shared<opset1::Multiply>(y14, c0); y17->set_friendly_name("r19");
+//         auto y18 = std::make_shared<opset1::Multiply>(y16, c1); y18->set_friendly_name("r20");
+//         auto y19 = std::make_shared<opset1::Add>(y06, y11); y19->set_friendly_name("r21");
+//         auto y20 = std::make_shared<opset1::Add>(y17, y18); y20->set_friendly_name("r22");
+//         auto y21 = std::make_shared<opset1::Add>(y15, y19); y21->set_friendly_name("r23");
+//         auto y22 = std::make_shared<opset1::Add>(y20, y21); y22->set_friendly_name("r24");
+//         auto s00 = std::make_shared<snippets::isa::Store>(y22);
+//         s00->set_friendly_name("s00");
+
+//         f = std::make_shared<Function>(NodeVector{s00}, ParameterVector{p0, p1, p2, p3, p4, p5, p6, p7});
+//         f->get_result()->set_friendly_name("res00");
+
+//         pass::Manager m;
+//         m.register_pass<ov::pass::InitNodeInfo>();
+//         std::function<snippets::Generator::opRegType(const std::shared_ptr<Node>& op)> reg_type_mapper =
+//             [=](const std::shared_ptr<Node>& op) -> snippets::Generator::opRegType {
+//             return generator->get_op_reg_type(op);
+//         };
+//         m.register_pass<snippets::pass::AssignRegisters>(reg_type_mapper);
+//         m.run_passes(f);
+//         ASSERT_NO_THROW(check_rt_info(f));
+//     }
+
+//     // instead of comparing to a reference function check that registers are correctly assigned
+//     // and stored to runtime info
+//     {
+//         std::map<std::string, size_t> ref_registers {
+//             {"p00", 0}, {"p01", 1}, {"p02", 2}, {"p03", 3}, {"p04", 4}, {"p05", 5},
+//             {"p06", 6}, {"p07", 7},
+//             {"r00", 1}, {"r01", 3}, {"r02", 5}, {"r03", 5}, {"r04", 2}, {"r05", 6},
+//             {"r06", 6}, {"r07", 6}, {"r08", 5}, {"r09", 2}, {"r10", 1}, {"r11", 4},
+//             {"r12", 4}, {"r13", 6}, {"r14", 2}, {"r15", 5}, {"r16", 0}, {"r17", 4},
+//             {"r18", 0}, {"r19", 2}, {"r20", 4}, {"r21", 1}, {"r22", 0}, {"r23", 6},
+//             {"r24", 1},
+//             {"s00", 8},
+//             {"res00", 8}
+//         };
+
+//         auto total_ops = 0;
+//         for (auto& op : f->get_ordered_ops()) {
+//             for (const auto& output : op->outputs()) {
+//                 const auto& rt = output.get_tensor_ptr()->get_rt_info();
+//                 auto it_rt = rt.find("reginfo");
+//                 if (it_rt != rt.end()) {
+//                     auto reg = it_rt->second.as<size_t>();
+//                     ASSERT_TRUE(ref_registers[op->get_friendly_name()] == reg);
+//                     total_ops++;
+//                 }
+//             }
+//         }
+//         ASSERT_EQ(total_ops, ref_registers.size());
+//     }
+// }
diff --git a/src/plugins/intel_cpu/src/emitters/jit_snippets_emitters.cpp b/src/plugins/intel_cpu/src/emitters/jit_snippets_emitters.cpp
index 0ff718023dc1cd..7bcde74226d2cb 100644
--- a/src/plugins/intel_cpu/src/emitters/jit_snippets_emitters.cpp
+++ b/src/plugins/intel_cpu/src/emitters/jit_snippets_emitters.cpp
@@ -1113,7 +1113,7 @@ BrgemmCopyBEmitter::BrgemmCopyBEmitter(dnnl::impl::cpu::x64::jit_generator* h, d
     if (m_with_comp)
         m_comp_offset = brgemm_repack->get_offset_compensations();
 
-    auto layout = ngraph::snippets::utils::get_node_output_layout(brgemm_repack->get_input_node_shared_ptr(0));
+    const auto& layout = ngraph::snippets::get_tensor_descriptor_ptr(brgemm_repack->get_input_node_shared_ptr(0))->get_layout();
     const auto& original_shape = brgemm_repack->get_input_shape(0);
     auto transposed_shape = original_shape;
     size_t leading_dimension = *(original_shape.rbegin());
diff --git a/src/plugins/intel_cpu/src/snippets_transformations/brgemm_to_brgemm_cpu.cpp b/src/plugins/intel_cpu/src/snippets_transformations/brgemm_to_brgemm_cpu.cpp
index 63779e5848bec4..17f9476e21fa82 100644
--- a/src/plugins/intel_cpu/src/snippets_transformations/brgemm_to_brgemm_cpu.cpp
+++ b/src/plugins/intel_cpu/src/snippets_transformations/brgemm_to_brgemm_cpu.cpp
@@ -60,19 +60,22 @@ pass::BrgemmToBrgemmCPU::BrgemmToBrgemmCPU() {
             brgemm_cpu = std::make_shared<BrgemmCPU>(brgemm->input_value(0), brgemm->input_value(1), BrgemmCPU::Type::Floating,
                                                      offset_a, offset_b, offset_c);
         } else {
-            const auto layoutIn1 = ngraph::snippets::utils::get_node_output_layout(brgemm->input_value(1).get_node_shared_ptr());
             const auto copy_b_type = with_comp ? BrgemmCopyB::WithCompensations : BrgemmCopyB::OnlyRepacking;
             const auto brgemmRepackIn1 = std::make_shared<BrgemmCopyB>(brgemm->input_value(1), element_type_a, copy_b_type, offset_b);
             const auto buffer = std::make_shared<ngraph::snippets::op::Buffer>(brgemmRepackIn1->output(0));
+            ngraph::snippets::utils::set_outside_loop_value(brgemmRepackIn1, true);
+            ngraph::snippets::utils::set_outside_loop_value(buffer, true);
 
             if (with_amx) {
                 const auto scratch = std::make_shared<ngraph::snippets::op::Buffer>(ov::Shape{BrgemmCPU::SCRATCH_BYTE_SIZE});
                 brgemm_cpu = std::make_shared<BrgemmCPU>(brgemm->input_value(0), buffer, scratch, BrgemmCPU::Type::AMX,
                                                          offset_a, offset_b, offset_c);
+                ngraph::snippets::utils::set_outside_loop_value(scratch, true);
             } else if (with_comp) {
                 const auto scratch = std::make_shared<ngraph::snippets::op::Buffer>(brgemmRepackIn1->output(1));
                 brgemm_cpu = std::make_shared<BrgemmCPU>(brgemm->input_value(0), buffer, scratch, BrgemmCPU::Type::WithCompensations,
                                                          offset_a, offset_b, offset_c);
+                ngraph::snippets::utils::set_outside_loop_value(scratch, true);
             } else if (one_of(element_type_a, ov::element::u8, ov::element::bf16)) {
                 brgemm_cpu = std::make_shared<BrgemmCPU>(brgemm->input_value(0), buffer, BrgemmCPU::Type::WithDataRepacking,
                                                          offset_a, offset_b, offset_c);
@@ -82,9 +85,10 @@ pass::BrgemmToBrgemmCPU::BrgemmToBrgemmCPU() {
         }
 
         brgemm_cpu->set_friendly_name(brgemm->get_friendly_name());
-        ngraph::snippets::utils::set_output_layout(brgemm_cpu->output(0), ngraph::snippets::utils::get_node_output_layout(brgemm));
-        ngraph::copy_runtime_info(brgemm, brgemm_cpu);
+        ngraph::copy_runtime_info(brgemm, brgemm_cpu); // Copy output layout inside as well
         ngraph::replace_node(brgemm, brgemm_cpu);
+        // TODO: At the moment Brgemm is executed outside Loop. When Blocking is supported, remove it
+        ngraph::snippets::utils::set_outside_loop_value(brgemm_cpu, true);
 
         return true;
     };
diff --git a/src/plugins/intel_cpu/src/snippets_transformations/fuse_load_store_and_convert.cpp b/src/plugins/intel_cpu/src/snippets_transformations/fuse_load_store_and_convert.cpp
deleted file mode 100644
index 0c64a20b655ed9..00000000000000
--- a/src/plugins/intel_cpu/src/snippets_transformations/fuse_load_store_and_convert.cpp
+++ /dev/null
@@ -1,113 +0,0 @@
-// Copyright (C) 2018-2023 Intel Corporation
-// SPDX-License-Identifier: Apache-2.0
-//
-
-#include "snippets/itt.hpp"
-
-#include "fuse_load_store_and_convert.hpp"
-#include "snippets/snippets_isa.hpp"
-
-#include "snippets_transformations/op/load_convert.hpp"
-#include "snippets_transformations/op/store_convert.hpp"
-
-#include "ngraph/rt_info.hpp"
-#include "ngraph/pattern/op/wrap_type.hpp"
-
-ov::intel_cpu::pass::FuseLoadConvert::FuseLoadConvert() {
-    MATCHER_SCOPE(FuseLoadConvert);
-    auto load_pattern = ngraph::pattern::wrap_type<ngraph::snippets::op::Load>();
-    auto convert_pattern = ngraph::pattern::wrap_type<ngraph::opset1::Convert>({load_pattern});
-
-    auto callback = [=](ngraph::pattern::Matcher& m) {
-        OV_ITT_SCOPED_TASK(ngraph::pass::itt::domains::SnippetsTransform, "ov::intel_cpu::pass::FuseLoadConvert")
-        auto& pm = m.get_pattern_value_map();
-        const auto load_shared = pm.at(load_pattern).get_node_shared_ptr();
-        if (!load_shared || load_shared->output(0).get_target_inputs().size() != 1) {
-            return false;
-        }
-
-        const auto load = std::dynamic_pointer_cast<ngraph::snippets::op::Load>(load_shared);
-        if (!load)
-            return false;
-
-        const auto convert = pm.at(convert_pattern).get_node_shared_ptr();
-        if (transformation_callback(convert))
-            return false;
-
-        std::shared_ptr<ngraph::Node> load_convert = nullptr;
-        if (const auto convert_saturation =
-                std::dynamic_pointer_cast<ngraph::snippets::op::ConvertSaturation>(convert)) {
-            load_convert = std::make_shared<ov::intel_cpu::LoadConvertSaturation>(load->input_value(0),
-                                                                                  convert_saturation->get_destination_type(),
-                                                                                  load->get_count(), load->get_offset());
-        } else if (const auto convert_truncation =
-                std::dynamic_pointer_cast<ngraph::snippets::op::ConvertTruncation>(convert)) {
-            load_convert = std::make_shared<ov::intel_cpu::LoadConvertTruncation>(load->input_value(0),
-                                                                                  convert_truncation->get_destination_type(),
-                                                                                  load->get_count(), load->get_offset());
-        } else {
-            throw ngraph::ngraph_error(
-                "Type of Convert op is undefined. Supports only fusing Load and ConvertTruncation or ConvertSaturation ops");
-        }
-
-        if (!load_convert)
-            return false;
-
-        ngraph::copy_runtime_info(convert, load_convert);
-        ngraph::replace_node(convert, load_convert);
-
-        return true;
-    };
-
-    auto m = std::make_shared<ngraph::pattern::Matcher>(convert_pattern, matcher_name);
-    register_matcher(m, callback);
-}
-
-
-ov::intel_cpu::pass::FuseStoreConvert::FuseStoreConvert() {
-    MATCHER_SCOPE(FuseStoreConvert);
-    auto input_pattern = ngraph::pattern::any_input();
-    auto convert_pattern = ngraph::pattern::wrap_type<ngraph::opset1::Convert>({input_pattern});
-    auto store_pattern = ngraph::pattern::wrap_type<ngraph::snippets::op::Store>({convert_pattern});
-
-    auto callback = [=](ngraph::pattern::Matcher& m) {
-        OV_ITT_SCOPED_TASK(ngraph::pass::itt::domains::SnippetsTransform, "ov::intel_cpu::pass::FuseStoreConvert")
-        auto& pm = m.get_pattern_value_map();
-        const auto input = pm.at(input_pattern).get_node_shared_ptr();
-
-        const auto store = std::dynamic_pointer_cast<ngraph::snippets::op::Store>(pm.at(store_pattern).get_node_shared_ptr());
-        if (!store)
-            return false;
-
-        const auto convert = pm.at(convert_pattern).get_node_shared_ptr();
-        if (convert->output(0).get_target_inputs().size() != 1 || transformation_callback(convert))
-            return false;
-
-        std::shared_ptr<ngraph::Node> store_convert = nullptr;
-        if (const auto convert_saturation =
-                std::dynamic_pointer_cast<ngraph::snippets::op::ConvertSaturation>(convert)) {
-            store_convert = std::make_shared<ov::intel_cpu::StoreConvertSaturation>(input,
-                                                                                    convert_saturation->get_destination_type(),
-                                                                                    store->get_count(), store->get_offset());
-        } else if (const auto convert_truncation =
-                std::dynamic_pointer_cast<ngraph::snippets::op::ConvertTruncation>(convert)) {
-            store_convert = std::make_shared<ov::intel_cpu::StoreConvertTruncation>(input,
-                                                                                    convert_truncation->get_destination_type(),
-                                                                                    store->get_count(), store->get_offset());
-        } else {
-            throw ngraph::ngraph_error(
-                "Type of Convert op is undefined. Supports only fusing Store and ConvertTruncation or ConvertSaturation ops");
-        }
-
-        if (!store_convert)
-            return false;
-
-        ngraph::copy_runtime_info(store, store_convert);
-        ngraph::replace_node(store, store_convert);
-
-        return true;
-    };
-
-    auto m = std::make_shared<ngraph::pattern::Matcher>(store_pattern, matcher_name);
-    register_matcher(m, callback);
-}
diff --git a/src/plugins/intel_cpu/src/snippets_transformations/lowered/fuse_load_store_and_convert.cpp b/src/plugins/intel_cpu/src/snippets_transformations/lowered/fuse_load_store_and_convert.cpp
index 5d2117296e57b9..f6cd67e0fd5309 100644
--- a/src/plugins/intel_cpu/src/snippets_transformations/lowered/fuse_load_store_and_convert.cpp
+++ b/src/plugins/intel_cpu/src/snippets_transformations/lowered/fuse_load_store_and_convert.cpp
@@ -23,7 +23,9 @@ bool ov::intel_cpu::pass::FuseLoadStoreConvert::fuse_load_convert(ngraph::snippe
     const auto& load_output = linear_ir.get_expr_by_output(input_td);
     const auto& load_expr = load_output.expr;
     const auto load = ov::as_type_ptr<ngraph::snippets::op::Load>(load_expr->get_node());
-    if (!load || load_expr->get_node()->get_type_info() != ngraph::snippets::op::Load::get_type_info_static())
+    if (!load ||
+        ov::is_type<ngraph::snippets::op::LoadReshape>(load_expr->get_node()) ||
+        ov::is_type<ngraph::snippets::op::BroadcastLoad>(load_expr->get_node()))
         return false;
 
     const auto consumers = linear_ir.get_exprs_by_input(input_td);
diff --git a/src/plugins/intel_cpu/src/snippets_transformations/op/brgemm_copy_b.cpp b/src/plugins/intel_cpu/src/snippets_transformations/op/brgemm_copy_b.cpp
index 0e4004395e188a..3502586495a512 100644
--- a/src/plugins/intel_cpu/src/snippets_transformations/op/brgemm_copy_b.cpp
+++ b/src/plugins/intel_cpu/src/snippets_transformations/op/brgemm_copy_b.cpp
@@ -15,9 +15,7 @@ using namespace ov;
 intel_cpu::BrgemmCopyB::BrgemmCopyB(const Output<Node>& x, const element::Type src_type, const Type type,
                                     const size_t offset_in, const size_t offset_out0, const size_t offset_out1)
     : ngraph::snippets::op::MemoryAccess({x}, 1, type == Type::WithCompensations ? 2 : 1), m_type(type), m_src_type(src_type) {
-    set_output_size(get_output_port_count());
-    m_input_ports.resize(get_input_size());
-    m_output_ports.resize(get_output_size());
+    set_output_size(type == Type::WithCompensations ? 2 : 1);
     set_input_port_descriptor({0, offset_in}, 0);
     set_output_port_descriptor({0, offset_out0}, 0);
     if (is_with_compensations()) {
diff --git a/src/plugins/intel_cpu/src/snippets_transformations/op/brgemm_cpu.cpp b/src/plugins/intel_cpu/src/snippets_transformations/op/brgemm_cpu.cpp
index 67e85394063c66..1745e1b64650f3 100644
--- a/src/plugins/intel_cpu/src/snippets_transformations/op/brgemm_cpu.cpp
+++ b/src/plugins/intel_cpu/src/snippets_transformations/op/brgemm_cpu.cpp
@@ -1,12 +1,11 @@
-// Copyright (C) 2018-2022 Intel Corporation
+// Copyright (C) 2018-2023 Intel Corporation
 // SPDX-License-Identifier: Apache-2.0
 //
 
-#include "snippets/itt.hpp"
 #include "brgemm_cpu.hpp"
-#include "ngraph/runtime/host_tensor.hpp"
-#include "openvino/core/rt_info.hpp"
+#include "snippets/itt.hpp"
 #include "snippets/utils.hpp"
+#include "snippets/tensor_descriptor.hpp"
 #include "utils/general_utils.h"
 
 
@@ -19,8 +18,7 @@ BrgemmCPU::BrgemmCPU(const Output<Node>& A, const Output<Node>& B, const Type ty
     // We call default ctor of Brgemm class to avoid incorrect shape infer in constructor_validate_and_type_infer() call
     set_arguments({A, B});
     set_output_size(1);
-    m_input_ports.resize(get_input_size());
-    m_output_ports.resize(get_output_size());
+    ctor_initialize(std::set<size_t>{0, 1}, std::set<size_t>{0});
     set_input_port_descriptor({0, offset_a}, 0);
     set_input_port_descriptor({0, offset_b}, 1);
     set_output_port_descriptor({0, offset_c}, 0);
@@ -32,8 +30,7 @@ BrgemmCPU::BrgemmCPU(const Output<Node>& A, const Output<Node>& B, const Output<
     : Brgemm(), m_type(type) {
     set_arguments({A, B, scratch});
     set_output_size(1);
-    m_input_ports.resize(get_input_size());
-    m_output_ports.resize(get_output_size());
+    ctor_initialize(std::set<size_t>{0, 1, 2}, std::set<size_t>{0});
     set_input_port_descriptor({0, offset_a}, 0);
     set_input_port_descriptor({0, offset_b}, 1);
     set_output_port_descriptor({0, offset_c}, 0);
@@ -53,16 +50,9 @@ void BrgemmCPU::validate_and_infer_types() {
                     "BrgemmCPU expects 3 inputs with input precisions i8|i8 and bf16|bf16 on AMX system");
 
     const auto brgemm_copy = is_with_data_repacking() ? get_brgemm_copy() : nullptr;
-    std::vector<ov::PartialShape> planar_input_shapes = {
-            ngraph::snippets::utils::get_port_planar_shape(input_value(0)),
-            ngraph::snippets::utils::get_port_planar_shape(brgemm_copy ? brgemm_copy->input_value(0) : input_value(1))
-    };
-
+    const auto planar_input_shapes = get_planar_input_shapes({input_value(0), brgemm_copy ? brgemm_copy->input_value(0) : input_value(1)});
     auto output_shape = get_output_partial_shape(planar_input_shapes);
-    const auto& output_layout = ngraph::snippets::utils::get_node_output_layout(this);
-    set_output_type(0,
-                    get_output_type(),
-                    ngraph::snippets::utils::get_reordered_planar_shape(output_shape, output_layout));
+    set_output_type(0, get_output_type(), get_planar_output_shape(output_shape));
 
     //Additional check for 3rd input
     if (one_of(m_type, Type::WithCompensations, Type::AMX)) {