From 345c87234533a2be8262523f2ba40b886ebbecc5 Mon Sep 17 00:00:00 2001
From: Alexandra Sidorova <alexandra.sidorova@intel.com>
Date: Tue, 6 Aug 2024 15:30:49 +0400
Subject: [PATCH 01/24] [GPU] Fixed moving a temporary object (#25924)

### Details:
- *Fixed extra `std::move()` warning-error from
https://github.com/openvinotoolkit/openvino/pull/25886*

### Tickets:
 - *N/A*
---
 src/plugins/intel_gpu/src/graph/kv_cache.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)
diff --git a/src/plugins/intel_gpu/src/graph/kv_cache.cpp b/src/plugins/intel_gpu/src/graph/kv_cache.cpp
index 42972dfc7b7879..1927054faa9bf0 100644
--- a/src/plugins/intel_gpu/src/graph/kv_cache.cpp
+++ b/src/plugins/intel_gpu/src/graph/kv_cache.cpp
@@ -38,7 +38,7 @@ std::vector<layout> kv_cache_inst::calc_output_layouts(kv_cache_node const& /*no
     if (desc->num_outputs > 1)
         input_shapes.push_back(impl_param.get_input_layout(2).get<ShapeType>());
 
-    std::vector<ShapeType> output_shapes = std::move(shape_infer(&op, input_shapes));
+    std::vector<ShapeType> output_shapes = shape_infer(&op, input_shapes);
 
     static const std::map<size_t, size_t> ports_map = {{0, 0}, {1, 2}};
 

From d35911031932a436b6164584d82b29ac283d94c4 Mon Sep 17 00:00:00 2001
From: Ujjayant Kadian <118752727+ujjayant-kadian@users.noreply.github.com>
Date: Tue, 6 Aug 2024 12:40:03 +0100
Subject: [PATCH 02/24] NPUW: Removing unnecessary std::moves from the
 decompression patterns (#25925)

### Details:
 - Cleaning up unnecessary std::moves from the patterns.

### Tickets:
 - *ticket-id*
---
 .../npuw/partitioning/patterns/dcoff.cpp      | 20 +++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/src/plugins/intel_npu/src/plugin/npuw/partitioning/patterns/dcoff.cpp b/src/plugins/intel_npu/src/plugin/npuw/partitioning/patterns/dcoff.cpp
index 4654c9e18b2e72..156f22e59514b4 100644
--- a/src/plugins/intel_npu/src/plugin/npuw/partitioning/patterns/dcoff.cpp
+++ b/src/plugins/intel_npu/src/plugin/npuw/partitioning/patterns/dcoff.cpp
@@ -207,7 +207,7 @@ bool DCOFFPassBase::matcher_callback(ov::pass::pattern::Matcher& m) {
             LOG_DEBUG("Matched: " << matched_paramB << " - parameter to remove...");
 
             // Record mapping from the Scale coeff paramter to the Real weight parameter
-            m_params_to.get().scales[matched_paramB] = std::move(matched_paramA);
+            m_params_to.get().scales[matched_paramB] = matched_paramA;
 
             // Disconnect Multiply and Convert from their outputs
             auto matched_mulply = node_to_output.at(mulply).get_node_shared_ptr();
@@ -220,8 +220,8 @@ bool DCOFFPassBase::matcher_callback(ov::pass::pattern::Matcher& m) {
                 }
             };
             LOG_DEBUG("Dropping the connections...");
-            drop_outputs(std::move(matched_mulply));
-            drop_outputs(std::move(matched_convrt));
+            drop_outputs(matched_mulply);
+            drop_outputs(matched_convrt);
 
             LOG_DEBUG("Reconnecting the root...");
             reconnect_root_to_convert(m);
@@ -352,8 +352,8 @@ bool DCOFFPassBase::matcher_callback(ov::pass::pattern::Matcher& m) {
             // it can be probably eliminated as well)
 
             // Record mapping from the Scale coeff paramter to the Real weight parameter
-            m_params_to.get().zerops[matched_paramA] = std::move(matched_valueB);
-            m_params_to.get().scales[matched_paramC] = std::move(matched_paramA);
+            m_params_to.get().zerops[matched_paramA] = matched_valueB;
+            m_params_to.get().scales[matched_paramC] = matched_paramA;
 
             // Disconnect Multiply and Convert from their outputs
             auto matched_mulply = node_to_output.at(mulply).get_node_shared_ptr();
@@ -366,8 +366,8 @@ bool DCOFFPassBase::matcher_callback(ov::pass::pattern::Matcher& m) {
                 }
             };
             LOG_DEBUG("Dropping the connections...");
-            drop_outputs(std::move(matched_mulply));
-            drop_outputs(std::move(matched_convrt));
+            drop_outputs(matched_mulply);
+            drop_outputs(matched_convrt);
 
             LOG_DEBUG("Reconnecting the root...");
             reconnect_root(m);
@@ -484,8 +484,8 @@ DCOFFPassReshape2::DCOFFPassReshape2(DCOffMode dcoff_mode, ov::element::Type dco
                 // Reshape will be reconnected to Convert directly
 
                 // Record mapping from the Scale coeff parameter to the Real weight parameter
-                pref.get().zerops[matched_paramA] = std::move(matched_valueB);
-                pref.get().scales[matched_paramC] = std::move(matched_paramA);
+                pref.get().zerops[matched_paramA] = matched_valueB;
+                pref.get().scales[matched_paramC] = matched_paramA;
 
                 // Disconnect Multiply and Convert from their outputs
                 auto matched_mulply = node_to_output.at(mulply).get_node_shared_ptr();
@@ -498,7 +498,7 @@ DCOFFPassReshape2::DCOFFPassReshape2(DCOffMode dcoff_mode, ov::element::Type dco
                     }
                 };
                 LOG_DEBUG("Dropping the connections...");
-                drop_outputs(std::move(matched_mulply));
+                drop_outputs(matched_mulply);
                 drop_outputs(matched_convrt);
 
                 LOG_DEBUG("Reconnecting the Root...");

From bc6daa3075c16a17cec4be07ed96fcaf76adf582 Mon Sep 17 00:00:00 2001
From: Nashez Zubair <35090095+nashez@users.noreply.github.com>
Date: Tue, 6 Aug 2024 17:59:11 +0530
Subject: [PATCH 03/24] [OV JS] Expose Model.clone to Node.js Api (#25763)

### Details:

Changes as part of this PR include:
* Add a ModelWrap::clone function: Calls the underlying Model.clone
function
* Add a ModelWrap::Wrap function to return the cloned model as a
Napi::Value
* Update the addon.ts file with the clone method
* Add unit tests for the clone Api

resolves #25402

### Tickets:
 - #25402

---------

Signed-off-by: Nashez Zubair <nashezzubair@gmail.com>
---
 src/bindings/js/node/include/model_wrap.hpp   |  7 +++++++
 src/bindings/js/node/lib/addon.ts             |  4 ++++
 src/bindings/js/node/src/model_wrap.cpp       | 15 +++++++++++++++
 src/bindings/js/node/tests/unit/model.test.js | 18 ++++++++++++++++++
 4 files changed, 44 insertions(+)

diff --git a/src/bindings/js/node/include/model_wrap.hpp b/src/bindings/js/node/include/model_wrap.hpp
index 42da58aa76f5e0..1d8aaf5afdd421 100644
--- a/src/bindings/js/node/include/model_wrap.hpp
+++ b/src/bindings/js/node/include/model_wrap.hpp
@@ -116,6 +116,13 @@ class ModelWrap : public Napi::ObjectWrap<ModelWrap> {
      */
     Napi::Value get_output_element_type(const Napi::CallbackInfo& info);
 
+    /**
+     * @brief Returns a cloned model for the current model
+     * @param info Contains information about the environment and passed arguments
+     * @return Napi::Value Cloned model returned from the API
+     */
+    Napi::Value clone(const Napi::CallbackInfo& info);
+
 private:
     std::shared_ptr<ov::Model> _model;
     ov::Core _core;
diff --git a/src/bindings/js/node/lib/addon.ts b/src/bindings/js/node/lib/addon.ts
index 3c07b95455c5c6..88bd874210dbcc 100644
--- a/src/bindings/js/node/lib/addon.ts
+++ b/src/bindings/js/node/lib/addon.ts
@@ -214,6 +214,10 @@ interface CoreConstructor {
  * A user-defined model read by {@link Core.readModel}.
  */
 interface Model {
+  /**
+   * It returns a cloned model.
+   */
+  clone(): Model;
   /**
    * It gets the friendly name for a model. If a friendly name is not set
    * via {@link Model.setFriendlyName}, a unique model name is returned.
diff --git a/src/bindings/js/node/src/model_wrap.cpp b/src/bindings/js/node/src/model_wrap.cpp
index b53170c5246f80..88baf9da021b74 100644
--- a/src/bindings/js/node/src/model_wrap.cpp
+++ b/src/bindings/js/node/src/model_wrap.cpp
@@ -27,6 +27,7 @@ Napi::Function ModelWrap::get_class(Napi::Env env) {
                         InstanceMethod("getFriendlyName", &ModelWrap::get_friendly_name),
                         InstanceMethod("getOutputShape", &ModelWrap::get_output_shape),
                         InstanceMethod("getOutputElementType", &ModelWrap::get_output_element_type),
+                        InstanceMethod("clone", &ModelWrap::clone),
                         InstanceAccessor<&ModelWrap::get_inputs>("inputs"),
                         InstanceAccessor<&ModelWrap::get_outputs>("outputs")});
 }
@@ -189,3 +190,17 @@ Napi::Value ModelWrap::get_output_element_type(const Napi::CallbackInfo& info) {
         return info.Env().Undefined();
     }
 }
+
+Napi::Value ModelWrap::clone(const Napi::CallbackInfo& info) {
+    std::vector<std::string> allowed_signatures;
+    try {
+        if (ov::js::validate(info, allowed_signatures)) {
+            return cpp_to_js(info.Env(), _model->clone());
+        } else {
+            OPENVINO_THROW("'clone'", ov::js::get_parameters_error_msg(info, allowed_signatures));
+        }
+    } catch (const std::exception& e) {
+        reportError(info.Env(), e.what());
+        return info.Env().Undefined();
+    }
+}
diff --git a/src/bindings/js/node/tests/unit/model.test.js b/src/bindings/js/node/tests/unit/model.test.js
index d5ac4f163367bb..7728f13a25dce9 100644
--- a/src/bindings/js/node/tests/unit/model.test.js
+++ b/src/bindings/js/node/tests/unit/model.test.js
@@ -9,6 +9,7 @@ const { getModelPath } = require('./utils.js');
 const testXml = getModelPath().xml;
 const core = new ov.Core();
 const model = core.readModelSync(testXml);
+const clonedModel = model.clone();
 
 describe('Node.js Model.isDynamic()', () => {
   it('should return a boolean value indicating if the model is dynamic', () => {
@@ -157,3 +158,20 @@ describe('Model.getOutputElementType()', () => {
     );
   });
 });
+
+describe('Model.clone()', () => {
+  it('should return an object of type model', () => {
+    assert.ok(clonedModel instanceof ov.Model, 'clone() should return a model');
+  });
+
+  it('should return a model that is a clone of the calling model', () => {
+    assert.deepStrictEqual(clonedModel, model, "Cloned Model should be exactly equal to the calling model");
+  });
+  
+  it('should not accept any arguments', () => {
+    assert.throws(
+      () => model.clone("Unexpected argument").then(),
+      /'clone' method called with incorrect parameters./
+    );
+  });
+});

From 32f6d8a1045bad82f91e84a62a5a118f615b3913 Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Tue, 6 Aug 2024 17:04:58 +0400
Subject: [PATCH 04/24] Bump urllib3 from 1.26.18 to 1.26.19 in /docs (#25084)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Bumps [urllib3](https://github.com/urllib3/urllib3) from 1.26.18 to
1.26.19.
<details>
<summary>Release notes</summary>
<p><em>Sourced from <a
href="https://github.com/urllib3/urllib3/releases">urllib3's
releases</a>.</em></p>
<blockquote>
<h2>1.26.19</h2>
<h2>🚀 urllib3 is fundraising for HTTP/2 support</h2>
<p><a
href="https://sethmlarson.dev/urllib3-is-fundraising-for-http2-support">urllib3
is raising ~$40,000 USD</a> to release HTTP/2 support and ensure
long-term sustainable maintenance of the project after a sharp decline
in financial support for 2023. If your company or organization uses
Python and would benefit from HTTP/2 support in Requests, pip, cloud
SDKs, and thousands of other projects <a
href="https://opencollective.com/urllib3">please consider contributing
financially</a> to ensure HTTP/2 support is developed sustainably and
maintained for the long-haul.</p>
<p>Thank you for your support.</p>
<h2>Changes</h2>
<ul>
<li>Added the <code>Proxy-Authorization</code> header to the list of
headers to strip from requests when redirecting to a different host. As
before, different headers can be set via
<code>Retry.remove_headers_on_redirect</code>.</li>
</ul>
<p><strong>Full Changelog</strong>: <a
href="https://github.com/urllib3/urllib3/compare/1.26.18...1.26.19">https://github.com/urllib3/urllib3/compare/1.26.18...1.26.19</a></p>
<p>Note that due to an issue with our release automation, no <code>
multiple.intoto.jsonl</code> file is available for this release.</p>
</blockquote>
</details>
<details>
<summary>Changelog</summary>
<p><em>Sourced from <a
href="https://github.com/urllib3/urllib3/blob/1.26.19/CHANGES.rst">urllib3's
changelog</a>.</em></p>
<blockquote>
<h2>1.26.19 (2024-06-17)</h2>
<ul>
<li>Added the <code>Proxy-Authorization</code> header to the list of
headers to strip from requests when redirecting to a different host. As
before, different headers can be set via
<code>Retry.remove_headers_on_redirect</code>.</li>
<li>Fixed handling of OpenSSL 3.2.0 new error message for misconfiguring
an HTTP proxy as HTTPS.
(<code>[#3405](https://github.com/urllib3/urllib3/issues/3405)
&lt;https://github.com/urllib3/urllib3/issues/3405&gt;</code>__)</li>
</ul>
</blockquote>
</details>
<details>
<summary>Commits</summary>
<ul>
<li><a
href="https://github.com/urllib3/urllib3/commit/d9d85c88aa644af56d5e129634e750ce76e1a765"><code>d9d85c8</code></a>
Release 1.26.19</li>
<li><a
href="https://github.com/urllib3/urllib3/commit/8528b63b6fe5cfd7b21942cf988670de68fcd8c0"><code>8528b63</code></a>
[1.26] Fix downstream tests (<a
href="https://redirect.github.com/urllib3/urllib3/issues/3409">#3409</a>)</li>
<li><a
href="https://github.com/urllib3/urllib3/commit/40b6d1605814dd1db0a46e202d6e56f2e4c9a468"><code>40b6d16</code></a>
Merge pull request from GHSA-34jh-p97f-mpxf</li>
<li><a
href="https://github.com/urllib3/urllib3/commit/29cfd02f66376c61bd20f1725477925106321f68"><code>29cfd02</code></a>
Fix handling of OpenSSL 3.2.0 new error message &quot;record layer
failure&quot; (<a
href="https://redirect.github.com/urllib3/urllib3/issues/3405">#3405</a>)</li>
<li><a
href="https://github.com/urllib3/urllib3/commit/b60064388302f54a3455259ddab121618650a154"><code>b600643</code></a>
[1.26] Bump RECENT_DATE (<a
href="https://redirect.github.com/urllib3/urllib3/issues/3404">#3404</a>)</li>
<li><a
href="https://github.com/urllib3/urllib3/commit/7e2d3890926d4788e219f63e2e36fbeb8714827f"><code>7e2d389</code></a>
[1.26] Fix running CPython 2.7 tests in CI (<a
href="https://redirect.github.com/urllib3/urllib3/issues/3137">#3137</a>)</li>
<li>See full diff in <a
href="https://github.com/urllib3/urllib3/compare/1.26.18...1.26.19">compare
view</a></li>
</ul>
</details>
<br />


[![Dependabot compatibility
score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=urllib3&package-manager=pip&previous-version=1.26.18&new-version=1.26.19)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

Dependabot will resolve any conflicts with this PR as long as you don't
alter it yourself. You can also trigger a rebase manually by commenting
`@dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@dependabot rebase` will rebase this PR
- `@dependabot recreate` will recreate this PR, overwriting any edits
that have been made to it
- `@dependabot merge` will merge this PR after your CI passes on it
- `@dependabot squash and merge` will squash and merge this PR after
your CI passes on it
- `@dependabot cancel merge` will cancel a previously requested merge
and block automerging
- `@dependabot reopen` will reopen this PR if it is closed
- `@dependabot close` will close this PR and stop Dependabot recreating
it. You can achieve the same result by closing it manually
- `@dependabot show <dependency name> ignore conditions` will show all
of the ignore conditions of the specified dependency
- `@dependabot ignore this major version` will close this PR and stop
Dependabot creating any more for this major version (unless you reopen
the PR or upgrade to it yourself)
- `@dependabot ignore this minor version` will close this PR and stop
Dependabot creating any more for this minor version (unless you reopen
the PR or upgrade to it yourself)
- `@dependabot ignore this dependency` will close this PR and stop
Dependabot creating any more for this dependency (unless you reopen the
PR or upgrade to it yourself)
You can disable automated security fix PRs for this repo from the
[Security Alerts
page](https://github.com/openvinotoolkit/openvino/network/alerts).

</details>

Signed-off-by: dependabot[bot] <support@github.com>
Co-authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
---
 docs/requirements.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/requirements.txt b/docs/requirements.txt
index 98328772f48c60..bec013e9997f50 100644
--- a/docs/requirements.txt
+++ b/docs/requirements.txt
@@ -45,5 +45,5 @@ sphinxcontrib-jsmath==1.0.1
 sphinxcontrib-qthelp==1.0.3
 sphinxcontrib-serializinghtml==1.1.9
 toml==0.10.2
-urllib3==1.26.18
+urllib3==1.26.19
 zipp==3.4.1
\ No newline at end of file

From 07b6cb06f85c197bf034bb3a5f9f5b0d8c95744b Mon Sep 17 00:00:00 2001
From: Andrzej Kopytko <andrzejx.kopytko@intel.com>
Date: Tue, 6 Aug 2024 15:42:46 +0200
Subject: [PATCH 05/24] DOCS Highlight selected option (#25935)

Changed sidebar.js for bolding main menu items
Changed css for highligting selected option
---
 .../benchmarks_files/OV-benchmark-data.csv      |  2 +-
 docs/sphinx_setup/_static/css/custom.css        | 17 ++++++++++++++++-
 docs/sphinx_setup/_static/js/open_sidebar.js    |  5 +++++
 3 files changed, 22 insertions(+), 2 deletions(-)

diff --git a/docs/sphinx_setup/_static/benchmarks_files/OV-benchmark-data.csv b/docs/sphinx_setup/_static/benchmarks_files/OV-benchmark-data.csv
index dfdd15997dc38d..8422cd5fd89e90 100644
--- a/docs/sphinx_setup/_static/benchmarks_files/OV-benchmark-data.csv
+++ b/docs/sphinx_setup/_static/benchmarks_files/OV-benchmark-data.csv
@@ -526,4 +526,4 @@ stable-diffusion-v2-1,OV-2024.3.0,accel,Intel® Arc™ A770M dGPU,,,,,,321,150,1
 stable-diffusion-v2-1,OV-2024.3.0,accel,Intel® Data Center GPU Flex 140 dGPU,,,,,,1900,75,1,1900,75,13.59,"Generation time, sec.",Generation time/$,Generation time/TDP,"Generation time, sec.",13.31,,,,,
 stable-diffusion-v2-1,OV-2024.3.0,core-iGPU,Intel® Core™ i7-1360P iGPU-only,,,,,,480,28,1,480,28,20.85,"Generation time, sec.",Generation time/$,Generation time/TDP,"Generation time, sec.",19.95,,,,,
 stable-diffusion-v2-1,OV-2024.3.0,core-iGPU,Intel® Core™ Ultra 7 processor 165H iGPU-only,,,,,,460,28,1,460,28,12.98,"Generation time, sec.",Generation time/$,Generation time/TDP,"Generation time, sec.",12.41,,,,,
-end_rec,,,,,,,,,,,,,,,,,,,,,,,,
+end_rec,,,,,,,,,,,,,,,,,,,,,,,,
\ No newline at end of file
diff --git a/docs/sphinx_setup/_static/css/custom.css b/docs/sphinx_setup/_static/css/custom.css
index 18586f01964db9..aac910c5ecd04d 100644
--- a/docs/sphinx_setup/_static/css/custom.css
+++ b/docs/sphinx_setup/_static/css/custom.css
@@ -116,6 +116,10 @@ a#wap_dns {display: none;}
     font-weight: 600;
 }
 
+.bold {
+    font-weight: 700;
+}
+
 /* Underline width */
 a:hover,
 .toc-entry a.nav-link:hover,
@@ -126,7 +130,6 @@ nav.bd-links li > a:hover {
 
 #bd-docs-nav div ul a:hover {
     color: white;
-    text-decoration: underline
 }
 
 ul#navbar-main-elements > li:hover {
@@ -140,6 +143,18 @@ nav.bd-links .current>a {
     color: black;
 }
 
+a.current {
+    background-color: #76CEFF!important;
+}
+
+.bd-sidebar-primary label.toctree-toggle:hover {
+    background: #76CEFF!important;
+}
+
+a.current svg:not(:host).svg-inline--fa, svg:not(:root).svg-inline--fa {
+    color: black;
+}
+
 .bd-header .navbar-nav li a.nav-link {
     color: #fff;
     font-size: 1rem;
diff --git a/docs/sphinx_setup/_static/js/open_sidebar.js b/docs/sphinx_setup/_static/js/open_sidebar.js
index 6f01a7b2d49614..66ddf98c97403e 100644
--- a/docs/sphinx_setup/_static/js/open_sidebar.js
+++ b/docs/sphinx_setup/_static/js/open_sidebar.js
@@ -3,4 +3,9 @@ $(document).ready(function() {
     for(let i = 0; i < labels.length; i++){
         labels[i].classList.remove("rotate");
     }
+
+    const menus = $( "ul.bd-sidenav > li > a" );
+    for(let i = 0; i < menus.length; i++){
+        menus[i].classList.add("bold");
+    }
 })
\ No newline at end of file

From 7abac66881771f2f7f327d516ea95622a3c47008 Mon Sep 17 00:00:00 2001
From: Andrzej Kopytko <andrzejx.kopytko@intel.com>
Date: Tue, 6 Aug 2024 16:12:44 +0200
Subject: [PATCH 06/24] DOCS Port Added button to select number of rows to
 master (#25939)

### Details:
 - *item1*
 - *...*

### Tickets:
 - *ticket-id*
---
 docs/sphinx_setup/_static/js/openVinoDataTables.js | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/docs/sphinx_setup/_static/js/openVinoDataTables.js b/docs/sphinx_setup/_static/js/openVinoDataTables.js
index 0934d10ed90353..59e750220e20e6 100644
--- a/docs/sphinx_setup/_static/js/openVinoDataTables.js
+++ b/docs/sphinx_setup/_static/js/openVinoDataTables.js
@@ -2,9 +2,14 @@ $(document).ready(function () {
   var table = $('table.modeldata').DataTable({
     "autoWidth": false,
     stateSave: true,
+    lengthMenu: [
+      [10, 25, 50, -1],
+      ['10 rows', '25 rows', '50 rows', 'Show all rows']
+    ],
     layout: {
       topStart: {
         buttons: [
+          'pageLength',
           'colvis',
           {
             extend: 'colvisGroup',
@@ -18,7 +23,6 @@ $(document).ready(function () {
               columns: ':visible'
             }
           }
-
         ]
       }
     }

From 95f104fe01a6d5aedeadb6c30a30ebfc23fad0d8 Mon Sep 17 00:00:00 2001
From: "dependabot[bot]" <49699333+dependabot[bot]@users.noreply.github.com>
Date: Tue, 6 Aug 2024 14:28:12 +0000
Subject: [PATCH 07/24] Bump certifi from 2023.7.22 to 2024.7.4 in /docs
 (#25411)

Bumps [certifi](https://github.com/certifi/python-certifi) from
2023.7.22 to 2024.7.4.
<details>
<summary>Commits</summary>
<ul>
<li><a
href="https://github.com/certifi/python-certifi/commit/bd8153872e9c6fc98f4023df9c2deaffea2fa463"><code>bd81538</code></a>
2024.07.04 (<a
href="https://redirect.github.com/certifi/python-certifi/issues/295">#295</a>)</li>
<li><a
href="https://github.com/certifi/python-certifi/commit/06a2cbf21f345563dde6c28b60e29d57e9b210b3"><code>06a2cbf</code></a>
Bump peter-evans/create-pull-request from 6.0.5 to 6.1.0 (<a
href="https://redirect.github.com/certifi/python-certifi/issues/294">#294</a>)</li>
<li><a
href="https://github.com/certifi/python-certifi/commit/13bba02b72bac97c432c277158bc04b4d2a6bc23"><code>13bba02</code></a>
Bump actions/checkout from 4.1.6 to 4.1.7 (<a
href="https://redirect.github.com/certifi/python-certifi/issues/293">#293</a>)</li>
<li><a
href="https://github.com/certifi/python-certifi/commit/e8abcd0e62b334c164b95d49fcabdc9ecbca0554"><code>e8abcd0</code></a>
Bump pypa/gh-action-pypi-publish from 1.8.14 to 1.9.0 (<a
href="https://redirect.github.com/certifi/python-certifi/issues/292">#292</a>)</li>
<li><a
href="https://github.com/certifi/python-certifi/commit/124f4adf171e15cd9a91a8b6e0325ecc97be8fe1"><code>124f4ad</code></a>
2024.06.02 (<a
href="https://redirect.github.com/certifi/python-certifi/issues/291">#291</a>)</li>
<li><a
href="https://github.com/certifi/python-certifi/commit/c2196ce5d6ee675b27755a19948480a7823e2c6a"><code>c2196ce</code></a>
--- (<a
href="https://redirect.github.com/certifi/python-certifi/issues/290">#290</a>)</li>
<li><a
href="https://github.com/certifi/python-certifi/commit/fefdeec7588ff1c05214b85a552afcad5fdb51b2"><code>fefdeec</code></a>
Bump actions/checkout from 4.1.4 to 4.1.5 (<a
href="https://redirect.github.com/certifi/python-certifi/issues/289">#289</a>)</li>
<li><a
href="https://github.com/certifi/python-certifi/commit/3c5fb1560b826a7f83f1f9750173ff766492c9cf"><code>3c5fb15</code></a>
Bump actions/download-artifact from 4.1.6 to 4.1.7 (<a
href="https://redirect.github.com/certifi/python-certifi/issues/286">#286</a>)</li>
<li><a
href="https://github.com/certifi/python-certifi/commit/4a9569a3eb58db8548536fc16c5c5c7af946a5b1"><code>4a9569a</code></a>
Bump actions/checkout from 4.1.2 to 4.1.4 (<a
href="https://redirect.github.com/certifi/python-certifi/issues/287">#287</a>)</li>
<li><a
href="https://github.com/certifi/python-certifi/commit/1fc808626a895a916b1e4c2b63abae6c5eafdbe3"><code>1fc8086</code></a>
Bump peter-evans/create-pull-request from 6.0.4 to 6.0.5 (<a
href="https://redirect.github.com/certifi/python-certifi/issues/288">#288</a>)</li>
<li>Additional commits viewable in <a
href="https://github.com/certifi/python-certifi/compare/2023.07.22...2024.07.04">compare
view</a></li>
</ul>
</details>
<br />


[![Dependabot compatibility
score](https://dependabot-badges.githubapp.com/badges/compatibility_score?dependency-name=certifi&package-manager=pip&previous-version=2023.7.22&new-version=2024.7.4)](https://docs.github.com/en/github/managing-security-vulnerabilities/about-dependabot-security-updates#about-compatibility-scores)

You can trigger a rebase of this PR by commenting `@dependabot rebase`.

[//]: # (dependabot-automerge-start)
[//]: # (dependabot-automerge-end)

---

<details>
<summary>Dependabot commands and options</summary>
<br />

You can trigger Dependabot actions by commenting on this PR:
- `@dependabot rebase` will rebase this PR
- `@dependabot recreate` will recreate this PR, overwriting any edits
that have been made to it
- `@dependabot merge` will merge this PR after your CI passes on it
- `@dependabot squash and merge` will squash and merge this PR after
your CI passes on it
- `@dependabot cancel merge` will cancel a previously requested merge
and block automerging
- `@dependabot reopen` will reopen this PR if it is closed
- `@dependabot close` will close this PR and stop Dependabot recreating
it. You can achieve the same result by closing it manually
- `@dependabot show <dependency name> ignore conditions` will show all
of the ignore conditions of the specified dependency
- `@dependabot ignore this major version` will close this PR and stop
Dependabot creating any more for this major version (unless you reopen
the PR or upgrade to it yourself)
- `@dependabot ignore this minor version` will close this PR and stop
Dependabot creating any more for this minor version (unless you reopen
the PR or upgrade to it yourself)
- `@dependabot ignore this dependency` will close this PR and stop
Dependabot creating any more for this dependency (unless you reopen the
PR or upgrade to it yourself)
You can disable automated security fix PRs for this repo from the
[Security Alerts
page](https://github.com/openvinotoolkit/openvino/network/alerts).

</details>

> **Note**
> Automatic rebases have been disabled on this pull request as it has
been open for over 30 days.

Signed-off-by: dependabot[bot] <support@github.com>
Co-authored-by: dependabot[bot] <49699333+dependabot[bot]@users.noreply.github.com>
Co-authored-by: Ilya Lavrenov <ilya.lavrenov@intel.com>
---
 docs/requirements.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/requirements.txt b/docs/requirements.txt
index bec013e9997f50..5703503a9ba158 100644
--- a/docs/requirements.txt
+++ b/docs/requirements.txt
@@ -4,7 +4,7 @@ attrs==22.1.0
 Babel==2.11.0
 beautifulsoup4==4.9.3
 breathe==4.35.0
-certifi==2023.7.22
+certifi==2024.7.4
 colorama==0.4.6
 Cython==0.29.33
 docutils==0.20

From 515c2130006935d6bcdd1bda603fd4551c6bb302 Mon Sep 17 00:00:00 2001
From: KianYong Gan <kian.yong.gan@intel.com>
Date: Tue, 6 Aug 2024 23:01:24 +0800
Subject: [PATCH 08/24] [NPU] Free serialized model earlier to reduce peak mem
 (#25684)

Free serialized model earlier to reduce the memory consumption

This screenshot showing the benchmark running in local, using
`unet-camvid-onnx-0001.xml`

![image](https://github.com/user-attachments/assets/45667db9-2aab-43c2-ab5a-c63e852616ee)

print_memory_usage()

![image](https://github.com/user-attachments/assets/08eb9243-316f-4e72-99e3-84902efdcb83)

### Details:
 - *item1*
 - *...*

### Tickets:
 - *ticket-147118*
---
 .../include/zero_compiler_in_driver.hpp       |  19 +++
 .../compiler/src/zero_compiler_in_driver.cpp  | 139 ++++++++++++------
 2 files changed, 112 insertions(+), 46 deletions(-)

diff --git a/src/plugins/intel_npu/src/compiler/include/zero_compiler_in_driver.hpp b/src/plugins/intel_npu/src/compiler/include/zero_compiler_in_driver.hpp
index 24ccf0353f7c0a..9885699c4a2623 100644
--- a/src/plugins/intel_npu/src/compiler/include/zero_compiler_in_driver.hpp
+++ b/src/plugins/intel_npu/src/compiler/include/zero_compiler_in_driver.hpp
@@ -58,6 +58,11 @@ class LevelZeroCompilerInDriver final : public ICompiler {
     NetworkDescription compile(const std::shared_ptr<const ov::Model>& model,
                                const Config& config) const override final;
 
+    ze_result_t seriazlideIRModelAndCreateGraph(const std::shared_ptr<const ov::Model>& model,
+                                                const Config& config,
+                                                ze_device_graph_properties_t deviceGraphProperties,
+                                                ze_graph_handle_t& graphHandle) const;
+
     NetworkMetadata parse(const std::vector<uint8_t>& network, const Config& config) const override final;
 
     std::vector<ov::ProfilingInfo> process_profiling_output(const std::vector<uint8_t>& profData,
@@ -140,11 +145,25 @@ class LevelZeroCompilerInDriver final : public ICompiler {
                      IONodeDescriptorMap& results,
                      IONodeDescriptorMap& state) const;
 
+    template <typename T = TableExtension, typename std::enable_if_t<SupportAPIGraphQueryNetworkV2(T), bool> = true>
+    ze_result_t seriazlideIRModelAndQueryNetworkCreateV2(const std::shared_ptr<const ov::Model>& model,
+                                                         const Config& config,
+                                                         ze_device_graph_properties_t deviceGraphProperties,
+                                                         const ze_device_handle_t& _deviceHandle,
+                                                         ze_graph_query_network_handle_t& hGraphQueryNetwork) const;
+
     // ext version >= 1.5, support API (pfnCreate2, pfnQueryNetworkCreate2, pfnQueryContextMemory)
     template <typename T = TableExtension, typename std::enable_if_t<SupportAPIGraphQueryNetworkV2(T), bool> = true>
     std::unordered_set<std::string> queryImpl(const std::shared_ptr<const ov::Model>& model,
                                               const Config& config) const;
 
+    template <typename T = TableExtension, typename std::enable_if_t<SupportAPIGraphQueryNetworkV1(T), bool> = true>
+    ze_result_t seriazlideIRModelAndQueryNetworkCreateV1(const std::shared_ptr<const ov::Model>& model,
+                                                         const Config& config,
+                                                         ze_device_graph_properties_t deviceGraphProperties,
+                                                         const ze_device_handle_t& _deviceHandle,
+                                                         ze_graph_query_network_handle_t& hGraphQueryNetwork) const;
+
     // ext version == 1.3 && 1.4, support API (pfnQueryNetworkCreate, pfnQueryNetworkDestroy,
     // pfnQueryNetworkGetSupportedLayers)
     template <typename T = TableExtension, typename std::enable_if_t<SupportAPIGraphQueryNetworkV1(T), bool> = true>
diff --git a/src/plugins/intel_npu/src/compiler/src/zero_compiler_in_driver.cpp b/src/plugins/intel_npu/src/compiler/src/zero_compiler_in_driver.cpp
index c61d5ab0760ac3..0cdf2c961925b9 100644
--- a/src/plugins/intel_npu/src/compiler/src/zero_compiler_in_driver.cpp
+++ b/src/plugins/intel_npu/src/compiler/src/zero_compiler_in_driver.cpp
@@ -562,24 +562,15 @@ std::unordered_set<std::string> LevelZeroCompilerInDriver<TableExtension>::query
     return std::unordered_set<std::string>();
 }
 
-// For ext version == 1.3 && == 1.4, query is supported, calling querynetwork api in _graphDdiTableExt
+// For ext version == 1.3 && == 1.4
 template <typename TableExtension>
 template <typename T, std::enable_if_t<SupportAPIGraphQueryNetworkV1(T), bool>>
-std::unordered_set<std::string> LevelZeroCompilerInDriver<TableExtension>::queryImpl(
+ze_result_t LevelZeroCompilerInDriver<TableExtension>::seriazlideIRModelAndQueryNetworkCreateV1(
     const std::shared_ptr<const ov::Model>& model,
-    const Config& config) const {
-    _logger.debug("queryImpl - Calling queryNetwork of 1.3 version.");
-
-    ze_device_graph_properties_t deviceGraphProperties{};
-    auto result = _graphDdiTableExt->pfnDeviceGetGraphProperties(_deviceHandle, &deviceGraphProperties);
-    if (ZE_RESULT_SUCCESS != result) {
-        OPENVINO_THROW("L0 pfnDeviceGetGraphProperties",
-                       " result: ",
-                       ze_result_to_string(result),
-                       ", code 0x",
-                       std::hex,
-                       uint64_t(result));
-    }
+    const Config& config,
+    ze_device_graph_properties_t deviceGraphProperties,
+    const ze_device_handle_t& _deviceHandle,
+    ze_graph_query_network_handle_t& hGraphQueryNetwork) const {
     ze_graph_compiler_version_info_t& compilerVersion = deviceGraphProperties.compilerVersion;
 
     auto serializedIR = serializeIR(model, compilerVersion);
@@ -594,21 +585,20 @@ std::unordered_set<std::string> LevelZeroCompilerInDriver<TableExtension>::query
                             serializedIR.first,
                             serializedIR.second.get(),
                             buildFlags.c_str()};
-    ze_graph_query_network_handle_t hGraphQueryNetwork = nullptr;
 
     // Create querynetwork handle
-    result = _graphDdiTableExt->pfnQueryNetworkCreate(_context, _deviceHandle, &desc, &hGraphQueryNetwork);
+    ze_result_t result = _graphDdiTableExt->pfnQueryNetworkCreate(_context, _deviceHandle, &desc, &hGraphQueryNetwork);
 
-    return getQueryResultFromSupportedLayers(result, hGraphQueryNetwork);
+    return result;
 }
 
-// For ext version >= 1.5
+// For ext version == 1.3 && == 1.4, query is supported, calling querynetwork api in _graphDdiTableExt
 template <typename TableExtension>
-template <typename T, std::enable_if_t<SupportAPIGraphQueryNetworkV2(T), bool>>
+template <typename T, std::enable_if_t<SupportAPIGraphQueryNetworkV1(T), bool>>
 std::unordered_set<std::string> LevelZeroCompilerInDriver<TableExtension>::queryImpl(
     const std::shared_ptr<const ov::Model>& model,
     const Config& config) const {
-    _logger.debug("queryImpl - Calling queryNetwork of 1.5 version.");
+    _logger.debug("queryImpl - Calling queryNetwork of 1.3 version.");
 
     ze_device_graph_properties_t deviceGraphProperties{};
     auto result = _graphDdiTableExt->pfnDeviceGetGraphProperties(_deviceHandle, &deviceGraphProperties);
@@ -620,6 +610,27 @@ std::unordered_set<std::string> LevelZeroCompilerInDriver<TableExtension>::query
                        std::hex,
                        uint64_t(result));
     }
+
+    ze_graph_query_network_handle_t hGraphQueryNetwork = nullptr;
+
+    result = seriazlideIRModelAndQueryNetworkCreateV1(model,
+                                                      config,
+                                                      deviceGraphProperties,
+                                                      _deviceHandle,
+                                                      hGraphQueryNetwork);
+
+    return getQueryResultFromSupportedLayers(result, hGraphQueryNetwork);
+}
+
+// For ext version >= 1.5
+template <typename TableExtension>
+template <typename T, std::enable_if_t<SupportAPIGraphQueryNetworkV2(T), bool>>
+ze_result_t LevelZeroCompilerInDriver<TableExtension>::seriazlideIRModelAndQueryNetworkCreateV2(
+    const std::shared_ptr<const ov::Model>& model,
+    const Config& config,
+    ze_device_graph_properties_t deviceGraphProperties,
+    const ze_device_handle_t& _deviceHandle,
+    ze_graph_query_network_handle_t& hGraphQueryNetwork) const {
     ze_graph_compiler_version_info_t& compilerVersion = deviceGraphProperties.compilerVersion;
 
     auto serializedIR = serializeIR(model, compilerVersion);
@@ -636,10 +647,38 @@ std::unordered_set<std::string> LevelZeroCompilerInDriver<TableExtension>::query
                               buildFlags.c_str(),
                               ZE_GRAPH_FLAG_NONE};
 
+    // Create querynetwork handle
+    ze_result_t result = _graphDdiTableExt->pfnQueryNetworkCreate2(_context, _deviceHandle, &desc, &hGraphQueryNetwork);
+
+    return result;
+}
+
+// For ext version >= 1.5
+template <typename TableExtension>
+template <typename T, std::enable_if_t<SupportAPIGraphQueryNetworkV2(T), bool>>
+std::unordered_set<std::string> LevelZeroCompilerInDriver<TableExtension>::queryImpl(
+    const std::shared_ptr<const ov::Model>& model,
+    const Config& config) const {
+    _logger.debug("queryImpl - Calling queryNetwork of 1.5 version.");
+
+    ze_device_graph_properties_t deviceGraphProperties{};
+    auto result = _graphDdiTableExt->pfnDeviceGetGraphProperties(_deviceHandle, &deviceGraphProperties);
+    if (ZE_RESULT_SUCCESS != result) {
+        OPENVINO_THROW("L0 pfnDeviceGetGraphProperties",
+                       " result: ",
+                       ze_result_to_string(result),
+                       ", code 0x",
+                       std::hex,
+                       uint64_t(result));
+    }
+
     ze_graph_query_network_handle_t hGraphQueryNetwork = nullptr;
 
-    // Create querynetwork handle
-    result = _graphDdiTableExt->pfnQueryNetworkCreate2(_context, _deviceHandle, &desc, &hGraphQueryNetwork);
+    result = seriazlideIRModelAndQueryNetworkCreateV2(model,
+                                                      config,
+                                                      deviceGraphProperties,
+                                                      _deviceHandle,
+                                                      hGraphQueryNetwork);
 
     return getQueryResultFromSupportedLayers(result, hGraphQueryNetwork);
 }
@@ -759,6 +798,36 @@ ze_result_t LevelZeroCompilerInDriver<TableExtension>::createGraph(const ze_grap
     // Create querynetwork handle
     return _graphDdiTableExt->pfnCreate2(_context, _deviceHandle, &desc, graph);
 }
+template <typename TableExtension>
+ze_result_t LevelZeroCompilerInDriver<TableExtension>::seriazlideIRModelAndCreateGraph(
+    const std::shared_ptr<const ov::Model>& model,
+    const Config& config,
+    ze_device_graph_properties_t deviceGraphProperties,
+    ze_graph_handle_t& graphHandle) const {
+    const ze_graph_compiler_version_info_t& compilerVersion = deviceGraphProperties.compilerVersion;
+    auto serializedIR = serializeIR(model, compilerVersion);
+
+    ze_graph_format_t format = ZE_GRAPH_FORMAT_NGRAPH_LITE;
+
+    std::string buildFlags;
+
+    buildFlags += serializeIOInfo(model);
+    buildFlags += " ";
+    buildFlags += serializeConfig(config, const_cast<ze_graph_compiler_version_info_t&>(compilerVersion));
+
+    _logger.debug("compileIR Build flags : %s", buildFlags.c_str());
+
+    // If OV cache is enabled, disable driver caching
+    uint32_t flags = ZE_GRAPH_FLAG_NONE;
+    const auto set_cache_dir = config.get<CACHE_DIR>();
+    if (!set_cache_dir.empty()) {
+        flags = flags | ZE_GRAPH_FLAG_DISABLE_CACHING;
+    }
+
+    _logger.info("compileIR Using extension version: %s", typeid(TableExtension).name());
+    ze_result_t result = createGraph(format, serializedIR, buildFlags, flags, &graphHandle);
+    return result;
+}
 
 template <typename TableExtension>
 NetworkDescription LevelZeroCompilerInDriver<TableExtension>::compile(const std::shared_ptr<const ov::Model>& model,
@@ -776,33 +845,11 @@ NetworkDescription LevelZeroCompilerInDriver<TableExtension>::compile(const std:
                        std::hex,
                        uint64_t(result));
     }
-    ze_graph_compiler_version_info_t& compilerVersion = deviceGraphProperties.compilerVersion;
-
-    auto serializedIR = serializeIR(model, compilerVersion);
-
-    ze_graph_format_t format = ZE_GRAPH_FORMAT_NGRAPH_LITE;
-
-    std::string buildFlags;
-
-    buildFlags += serializeIOInfo(model);
-    buildFlags += " ";
-    buildFlags += serializeConfig(config, compilerVersion);
-
-    _logger.debug("compile Build flags : %s", buildFlags.c_str());
-    // TODO #-30202 Store graph_handle inside NetworkDesc instead of blob. But this will require changes in zeroAPI
 
     // Graph handle should be used only in scope of compile / parse functions.
     ze_graph_handle_t graphHandle;
 
-    // If OV cache is enabled, disable driver caching
-    uint32_t flags = ZE_GRAPH_FLAG_NONE;
-    const auto set_cache_dir = config.get<CACHE_DIR>();
-    if (!set_cache_dir.empty()) {
-        flags = flags | ZE_GRAPH_FLAG_DISABLE_CACHING;
-    }
-
-    _logger.info("compile Using extension version: %s", typeid(TableExtension).name());
-    result = createGraph(format, serializedIR, buildFlags, flags, &graphHandle);
+    result = seriazlideIRModelAndCreateGraph(model, config, deviceGraphProperties, graphHandle);
 
     OPENVINO_ASSERT(result == ZE_RESULT_SUCCESS,
                     "Failed to compile network. L0 createGraph",

From 37f6374bc0454d90351f4aa472856639bdad0076 Mon Sep 17 00:00:00 2001
From: Roman Kazantsev <roman.kazantsev@intel.com>
Date: Tue, 6 Aug 2024 19:15:58 +0400
Subject: [PATCH 09/24] [TF FE] Support LookupTableSizeV2 operation (#25892)

**Details:** This operation is required for four TensorFlow Hub models:
universal-sentence-encoder and random-nnlm

**Ticket:** TBD

---------

Signed-off-by: Kazantsev, Roman <roman.kazantsev@intel.com>
---
 .../tensorflow/docs/supported_ops.md          |  4 +-
 .../frontend/tensorflow/hash_table.hpp        |  4 -
 .../tensorflow/src/op/lookup_table_size.cpp   | 50 ++++++++++++
 src/frontends/tensorflow/src/op_table.cpp     |  3 +
 .../test_tf_LookupTableSize.py                | 76 +++++++++++++++++++
 5 files changed, 131 insertions(+), 6 deletions(-)
 create mode 100644 src/frontends/tensorflow/src/op/lookup_table_size.cpp
 create mode 100644 tests/layer_tests/tensorflow_tests/test_tf_LookupTableSize.py

diff --git a/src/frontends/tensorflow/docs/supported_ops.md b/src/frontends/tensorflow/docs/supported_ops.md
index cced96c6122685..014becd0d62bdd 100644
--- a/src/frontends/tensorflow/docs/supported_ops.md
+++ b/src/frontends/tensorflow/docs/supported_ops.md
@@ -601,8 +601,8 @@ A "supported operation" is one that TensorFlow Frontend can convert to the OpenV
 | LookupTableInsert                                       | YES                           |                               |
 | LookupTableInsertV2                                     | YES                           |                               |
 | LookupTableRemoveV2                                     | NO                            |                               |
-| LookupTableSize                                         | NO                            |                               |
-| LookupTableSizeV2                                       | NO                            |                               |
+| LookupTableSize                                         | YES                           |                               |
+| LookupTableSizeV2                                       | YES                           |                               |
 | LoopCond                                                | YES                           |                               |
 | LowerBound                                              | NO                            |                               |
 | Lu                                                      | NO                            |                               |
diff --git a/src/frontends/tensorflow/include/openvino/frontend/tensorflow/hash_table.hpp b/src/frontends/tensorflow/include/openvino/frontend/tensorflow/hash_table.hpp
index 131055369fcd3e..beecb75e733f56 100644
--- a/src/frontends/tensorflow/include/openvino/frontend/tensorflow/hash_table.hpp
+++ b/src/frontends/tensorflow/include/openvino/frontend/tensorflow/hash_table.hpp
@@ -35,10 +35,6 @@ class HashTable : public Variable {
         : HashTable(other) {
         m_keys = keys;
         m_values = values;
-        // reset names of tensor corresponding to variable value
-        // that is because variable can have multiple values during inference
-        m_keys.set_names({});
-        m_values.set_names({});
         m_is_initialized = true;
         ++m_init_counter;
     }
diff --git a/src/frontends/tensorflow/src/op/lookup_table_size.cpp b/src/frontends/tensorflow/src/op/lookup_table_size.cpp
new file mode 100644
index 00000000000000..42a52d8319d426
--- /dev/null
+++ b/src/frontends/tensorflow/src/op/lookup_table_size.cpp
@@ -0,0 +1,50 @@
+// Copyright (C) 2018-2024 Intel Corporation
+// SPDX-License-Identifier: Apache-2.0
+//
+
+#include "common_op_table.hpp"
+#include "openvino/frontend/tensorflow/hash_table.hpp"
+#include "openvino/frontend/tensorflow/node_context.hpp"
+#include "openvino/frontend/tensorflow/variable.hpp"
+#include "openvino/op/constant.hpp"
+#include "openvino/op/reshape.hpp"
+#include "openvino/op/shape_of.hpp"
+#include "openvino/op/squeeze.hpp"
+
+using namespace std;
+using namespace ov;
+using namespace ov::op;
+using namespace ov::frontend::tensorflow;
+
+namespace ov {
+namespace frontend {
+namespace tensorflow {
+namespace op {
+OutputVector translate_lookup_table_size_op(const NodeContext& node) {
+    default_op_checks(node, 1, {"LookupTableSize", "LookupTableSizeV2"});
+    auto table_handle = as_type_ptr<HashTable>(node.get_input_by_reference(0).get_node_shared_ptr());
+    TENSORFLOW_OP_VALIDATION(
+        node,
+        table_handle,
+        "[TensorFlow Frontend] internal error: LookupTableSize operation expects table_handle by the first input");
+
+    auto all_keys = table_handle->get_keys();
+
+    // reshape all keys to 1D tensor to work it further
+    auto target_shape = make_shared<v0::Constant>(element::i32, Shape{1}, -1);
+    all_keys = make_shared<v1::Reshape>(all_keys, target_shape, false);
+
+    // compute size of records in HashTable
+    // table size must be a scalar
+    ov::Output<ov::Node> table_size = make_shared<v3::ShapeOf>(all_keys, element::i64);
+    auto squeeze_axis = make_shared<v0::Constant>(element::i32, Shape{1}, 0);
+    table_size = make_shared<v0::Squeeze>(table_size, squeeze_axis);
+    set_node_name(node.get_name(), table_size.get_node_shared_ptr());
+
+    return {table_size};
+}
+
+}  // namespace op
+}  // namespace tensorflow
+}  // namespace frontend
+}  // namespace ov
diff --git a/src/frontends/tensorflow/src/op_table.cpp b/src/frontends/tensorflow/src/op_table.cpp
index f62d55a05fc520..ea0e4bd2643d39 100644
--- a/src/frontends/tensorflow/src/op_table.cpp
+++ b/src/frontends/tensorflow/src/op_table.cpp
@@ -97,6 +97,7 @@ TF_OP_CONVERTER(translate_iterator_get_next_op);
 TF_OP_CONVERTER(translate_iterator_op);
 TF_OP_CONVERTER(translate_lookup_table_import_op);
 TF_OP_CONVERTER(translate_lookup_table_find_op);
+TF_OP_CONVERTER(translate_lookup_table_size_op);
 TF_OP_CONVERTER(translate_loop_cond_op);
 TF_OP_CONVERTER(translate_merge_op);
 TF_OP_CONVERTER(translate_mergev2checkpoint_op);
@@ -301,6 +302,8 @@ const std::map<std::string, CreatorFunction> get_supported_ops() {
         {"LookupTableImportV2", CreatorFunction(translate_lookup_table_import_op)},
         {"LookupTableInsert", CreatorFunction(translate_no_op)},
         {"LookupTableInsertV2", CreatorFunction(translate_no_op)},
+        {"LookupTableSize", CreatorFunction(translate_lookup_table_size_op)},
+        {"LookupTableSizeV2", CreatorFunction(translate_lookup_table_size_op)},
         {"LRN", CreatorFunction(translate_lrn_op)},
         {"MatMul", CreatorFunction(translate_mat_mul_op)},
         {"MatrixBandPart", CreatorFunction(translate_matrix_band_part_op)},
diff --git a/tests/layer_tests/tensorflow_tests/test_tf_LookupTableSize.py b/tests/layer_tests/tensorflow_tests/test_tf_LookupTableSize.py
new file mode 100644
index 00000000000000..e0050c245f1321
--- /dev/null
+++ b/tests/layer_tests/tensorflow_tests/test_tf_LookupTableSize.py
@@ -0,0 +1,76 @@
+# Copyright (C) 2018-2024 Intel Corporation
+# SPDX-License-Identifier: Apache-2.0
+
+import numpy as np
+import platform
+import pytest
+import tensorflow as tf
+from common.tf_layer_test_class import CommonTFLayerTest
+from common.utils.tf_utils import mix_array_with_value, run_in_jenkins
+
+rng = np.random.default_rng()
+
+
+class TestLookupTableSizeOps(CommonTFLayerTest):
+    def _prepare_input(self, _):
+        inputs_data = {}
+        inputs_data['all_keys:0'] = np.array(self.all_keys).astype(self.keys_type)
+        return inputs_data
+
+    def create_lookup_table_size_net(self, hash_table_type, keys_type, values_type,
+                                     all_keys, all_values):
+        hash_table_op = tf.raw_ops.HashTable if hash_table_type == 0 else tf.raw_ops.HashTableV2
+        import_table_op = tf.raw_ops.LookupTableImport if hash_table_type == 0 else tf.raw_ops.LookupTableImportV2
+        size_table_op = tf.raw_ops.LookupTableSize if hash_table_type == 0 else tf.raw_ops.LookupTableSizeV2
+
+        self.keys_type = keys_type
+        self.all_keys = all_keys
+        if keys_type == str:
+            keys_type = tf.string
+        tf.compat.v1.reset_default_graph()
+        # Create the graph and model
+        with tf.compat.v1.Session() as sess:
+            all_keys = tf.compat.v1.placeholder(keys_type, [len(all_keys)], 'all_keys')
+            all_values = tf.constant(all_values, dtype=values_type)
+            hash_table = hash_table_op(key_dtype=keys_type, value_dtype=values_type)
+            import_hash_table = import_table_op(table_handle=hash_table, keys=all_keys,
+                                                values=all_values)
+            with tf.control_dependencies([import_hash_table]):
+                size_table_op(table_handle=hash_table, name='LookupTableSize')
+
+            tf.compat.v1.global_variables_initializer()
+            tf_net = sess.graph_def
+
+        return tf_net, None
+
+    test_data = [
+        dict(keys_type=np.int32, values_type=np.float32, all_keys=[0, 1, 2, 3, 4, 5],
+             all_values=[2.0, 13.0, -2.0, 0.0, 3.0, 1.0]),
+        dict(keys_type=np.int64, values_type=np.int32, all_keys=[0, 1, 2, 3, 4, 5],
+             all_values=[2, 13, -2, 0, 3, 1]),
+        dict(keys_type=np.int32, values_type=np.float32, all_keys=[2, 0, 3, -2, 4, 10],
+             all_values=[2.0, 13.0, -2.0, 0.0, 3.0, 1.0]),
+        dict(keys_type=np.int64, values_type=np.float32, all_keys=[2, 0, 3, -2, 4, 10],
+             all_values=[2.0, 13.0, -2.0, 0.0, 3.0, 1.0]),
+        dict(keys_type=np.int32, values_type=tf.string, all_keys=[20, 10, 33, -22, 44, 11],
+             all_values=['PyTorch', 'TensorFlow', 'JAX', 'Lightning', 'MindSpore', 'OpenVINO']),
+        dict(keys_type=str, values_type=np.int64,
+             all_keys=['PyTorch', 'TensorFlow', 'JAX', 'Lightning', 'MindSpore', 'OpenVINO'],
+             all_values=[200, 100, 0, -3, 10, 1]),
+        dict(keys_type=str, values_type=np.int32,
+             all_keys=['First sentence', 'Second one', '', 'Third', 'Fourth Sentence', 'etc.'],
+             all_values=[-1, 2, 0, -3, 0, 1]),
+    ]
+
+    @pytest.mark.parametrize("hash_table_type", [0, 1])
+    @pytest.mark.parametrize("params", test_data)
+    @pytest.mark.precommit
+    @pytest.mark.nightly
+    def test_lookup_table_size(self, hash_table_type, params, ie_device, precision, ir_version, temp_dir,
+                               use_legacy_frontend):
+        keys_type = params['keys_type']
+        if ie_device == 'GPU' and keys_type == str:
+            pytest.skip("148921: Segmentation fault on GPU")
+        self._test(*self.create_lookup_table_size_net(hash_table_type=hash_table_type, **params),
+                   ie_device, precision, ir_version, temp_dir=temp_dir,
+                   use_legacy_frontend=use_legacy_frontend)

From 7bc728359e760eb2c17532e04226b4ec5eba33f9 Mon Sep 17 00:00:00 2001
From: Dmitry Matveev <dmitry.matveev@intel.com>
Date: Tue, 6 Aug 2024 16:27:50 +0100
Subject: [PATCH 10/24] NPUW: Handle fp16 in constant fusion routines (#25919)

### Details:
 - *item1*
 - *...*

### Tickets:
 - *ticket-id*
---
 .../intel_npu/src/plugin/npuw/partitioning/partitioning.cpp   | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/src/plugins/intel_npu/src/plugin/npuw/partitioning/partitioning.cpp b/src/plugins/intel_npu/src/plugin/npuw/partitioning/partitioning.cpp
index 954c868e4bc887..efd61140e080b2 100644
--- a/src/plugins/intel_npu/src/plugin/npuw/partitioning/partitioning.cpp
+++ b/src/plugins/intel_npu/src/plugin/npuw/partitioning/partitioning.cpp
@@ -1226,6 +1226,7 @@ void Partitioner::saveRepeatedConstants(const std::string& func_name) {
             HANDLE_CASE(u4, uint8_t);
             HANDLE_CASE(i32, int);
             HANDLE_CASE(i64, int64_t);
+            HANDLE_CASE(f16, uint16_t);
             HANDLE_CASE(f32, float);
 #undef HANDLE_CASE
         default:
@@ -1246,7 +1247,8 @@ void Partitioner::saveRepeatedConstants(const std::string& func_name) {
 
         if ((((proto_shape.size() == 0 || (proto_shape.size() == 1 && proto_shape[0] <= 10)) &&
               proto_node->output(0).get_element_type().is_integral()) ||
-             (proto_node->output(0).get_element_type() == ov::element::f32 &&
+             ((proto_node->output(0).get_element_type() == ov::element::f32 ||
+               proto_node->output(0).get_element_type() == ov::element::f16) &&
               std::accumulate(proto_shape.begin(), proto_shape.end(), size_t{1}, std::multiplies<std::size_t>()) ==
                   1)) &&
             std::all_of(instances.begin(), instances.end(), [&](const CTPtr& other_node) -> bool {

From f19282fe8106bf0f90c229d957020330dee560e8 Mon Sep 17 00:00:00 2001
From: River Li <river.li@intel.com>
Date: Tue, 6 Aug 2024 23:45:40 +0800
Subject: [PATCH 11/24] [dGPU] avoid strided_slice to be executed in cpu
 (#25601)

### Details:
- Big input tensor to StrideSlice primitive is executed in CPU will lead
to huge performance drop.
 - *...*

### Tickets:
 - CVS-147088

---------

Co-authored-by: Pavel Durandin <pavel.durandin@intel.com>
---
 .../src/graph/graph_optimizer/mark_shape_of_subgraphs.cpp | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/src/plugins/intel_gpu/src/graph/graph_optimizer/mark_shape_of_subgraphs.cpp b/src/plugins/intel_gpu/src/graph/graph_optimizer/mark_shape_of_subgraphs.cpp
index aec9e8b5f497e6..3599e68301da29 100644
--- a/src/plugins/intel_gpu/src/graph/graph_optimizer/mark_shape_of_subgraphs.cpp
+++ b/src/plugins/intel_gpu/src/graph/graph_optimizer/mark_shape_of_subgraphs.cpp
@@ -7,6 +7,7 @@
 #include "reshape_inst.h"
 #include "eltwise_inst.h"
 #include "select_inst.h"
+#include "strided_slice_inst.h"
 #include "gather_inst.h"
 #include "pass_manager.h"
 
@@ -78,6 +79,13 @@ bool mark_shape_of_subgraphs::can_mark_node(const program_node& node) {
             return false;
     }
 
+    // Exclude stride_slice primitive if it's input is big const ternsor, else CPU reference implementation
+    // will lead to huge performance drop.
+    if (node.is_type<strided_slice>() && node.get_dependency(0).is_constant() &&
+        node.get_dependency(0).get_output_layout().count() > 1024 * 1024) {
+        return false;
+    }
+
     auto available_impls = node.type()->get_available_impls(node);
     auto cpu_impl_found = available_impls.find(impl_types::cpu) != available_impls.end();
 

From 5ec4375e291247d93836a49cd33659459dba31f6 Mon Sep 17 00:00:00 2001
From: Oleg Pipikin <oleg.pipikin@intel.com>
Date: Tue, 6 Aug 2024 18:47:48 +0200
Subject: [PATCH 12/24] Fix docs code snippets (#25864)

### Details:
 - *item1*
 - *...*

### Tickets:
 - *ticket-id*
---
 .github/workflows/code_snippets.yml           |   9 +-
 .../snippets/{ => gpu}/context_sharing.cpp    |   0
 .../snippets/{ => gpu}/context_sharing_va.cpp |   0
 .../{ => gpu}/context_sharing_va_c.cpp        |   0
 .../preprocessing_nv12_single_plane.cpp       |   0
 .../{ => gpu}/preprocessing_nv12_to_gray.cpp  |   0
 .../preprocessing_nv12_two_planes.cpp         |   0
 .../preprocessing_nv12_two_planes_c.cpp       |   0
 .../snippets/{ => gpu}/queue_sharing.cpp      |   0
 .../{ => gpu}/remote_objects_creation.cpp     |   0
 .../{ => gpu}/remote_objects_creation_c.cpp   |   0
 .../assets/snippets/multi_threading.cpp       |   2 +-
 .../snippets/npu_remote_objects_creation.cpp  |   2 +-
 .../assets/snippets/ov_dynamic_shapes.c       |  36 +++---
 .../assets/snippets/ov_patterns.cpp           | 110 +++++++-----------
 .../ov_sparse_weights_decompression.cpp       |   2 +-
 docs/snippets/CMakeLists.txt                  |  10 +-
 17 files changed, 75 insertions(+), 96 deletions(-)
 rename docs/articles_en/assets/snippets/{ => gpu}/context_sharing.cpp (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/context_sharing_va.cpp (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/context_sharing_va_c.cpp (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/preprocessing_nv12_single_plane.cpp (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/preprocessing_nv12_to_gray.cpp (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/preprocessing_nv12_two_planes.cpp (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/preprocessing_nv12_two_planes_c.cpp (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/queue_sharing.cpp (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/remote_objects_creation.cpp (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/remote_objects_creation_c.cpp (100%)

diff --git a/.github/workflows/code_snippets.yml b/.github/workflows/code_snippets.yml
index af6758bafc11fc..ae5f9ee25624d3 100644
--- a/.github/workflows/code_snippets.yml
+++ b/.github/workflows/code_snippets.yml
@@ -46,4 +46,11 @@ jobs:
         run: cmake -DCMAKE_BUILD_TYPE=Release -DTHREADING=SEQ -B build
 
       - name: Build snippets
-        run:  cmake --build build --target openvino_docs_snippets --parallel
+        if: ${{ runner.os == 'Linux' || runner.os == 'macOS'}}
+        run:  cmake --build build --target openvino_docs_snippets --parallel $(nproc)
+
+      - name: Build snippets Windows
+        if: ${{ runner.os == 'Windows'}}
+        shell: pwsh
+        run:  cmake --build build --target openvino_docs_snippets --parallel $ENV:NUMBER_OF_PROCESSORS
+
diff --git a/docs/articles_en/assets/snippets/context_sharing.cpp b/docs/articles_en/assets/snippets/gpu/context_sharing.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/context_sharing.cpp
rename to docs/articles_en/assets/snippets/gpu/context_sharing.cpp
diff --git a/docs/articles_en/assets/snippets/context_sharing_va.cpp b/docs/articles_en/assets/snippets/gpu/context_sharing_va.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/context_sharing_va.cpp
rename to docs/articles_en/assets/snippets/gpu/context_sharing_va.cpp
diff --git a/docs/articles_en/assets/snippets/context_sharing_va_c.cpp b/docs/articles_en/assets/snippets/gpu/context_sharing_va_c.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/context_sharing_va_c.cpp
rename to docs/articles_en/assets/snippets/gpu/context_sharing_va_c.cpp
diff --git a/docs/articles_en/assets/snippets/preprocessing_nv12_single_plane.cpp b/docs/articles_en/assets/snippets/gpu/preprocessing_nv12_single_plane.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/preprocessing_nv12_single_plane.cpp
rename to docs/articles_en/assets/snippets/gpu/preprocessing_nv12_single_plane.cpp
diff --git a/docs/articles_en/assets/snippets/preprocessing_nv12_to_gray.cpp b/docs/articles_en/assets/snippets/gpu/preprocessing_nv12_to_gray.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/preprocessing_nv12_to_gray.cpp
rename to docs/articles_en/assets/snippets/gpu/preprocessing_nv12_to_gray.cpp
diff --git a/docs/articles_en/assets/snippets/preprocessing_nv12_two_planes.cpp b/docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/preprocessing_nv12_two_planes.cpp
rename to docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes.cpp
diff --git a/docs/articles_en/assets/snippets/preprocessing_nv12_two_planes_c.cpp b/docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes_c.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/preprocessing_nv12_two_planes_c.cpp
rename to docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes_c.cpp
diff --git a/docs/articles_en/assets/snippets/queue_sharing.cpp b/docs/articles_en/assets/snippets/gpu/queue_sharing.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/queue_sharing.cpp
rename to docs/articles_en/assets/snippets/gpu/queue_sharing.cpp
diff --git a/docs/articles_en/assets/snippets/remote_objects_creation.cpp b/docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/remote_objects_creation.cpp
rename to docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
diff --git a/docs/articles_en/assets/snippets/remote_objects_creation_c.cpp b/docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
rename to docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
diff --git a/docs/articles_en/assets/snippets/multi_threading.cpp b/docs/articles_en/assets/snippets/multi_threading.cpp
index eae2b2e6326945..6b1db124ec6020 100644
--- a/docs/articles_en/assets/snippets/multi_threading.cpp
+++ b/docs/articles_en/assets/snippets/multi_threading.cpp
@@ -18,7 +18,7 @@ int main() {
         auto compiled_model_1 = core.compile_model(model, device, ov::inference_num_threads(1));
 
         // Use logical processors of Efficient-cores for inference on hybrid platform
-        auto compiled_model_2 = core.compile_model(model, device, ov::hint::scheduling_core_type(ECORE_ONLY));
+        auto compiled_model_2 = core.compile_model(model, device, ov::hint::scheduling_core_type(ov::hint::SchedulingCoreType::ECORE_ONLY));
 
         // Use one logical processor per CPU core for inference when hyper threading is on
         auto compiled_model_3 = core.compile_model(model, device, ov::hint::enable_hyper_threading(false));
diff --git a/docs/articles_en/assets/snippets/npu_remote_objects_creation.cpp b/docs/articles_en/assets/snippets/npu_remote_objects_creation.cpp
index 75eb50839ca117..e8267e5d44cb4c 100644
--- a/docs/articles_en/assets/snippets/npu_remote_objects_creation.cpp
+++ b/docs/articles_en/assets/snippets/npu_remote_objects_creation.cpp
@@ -42,7 +42,7 @@ int main() {
 
     {
         //! [wrap_dmabuf_fd]
-        int32_t fd_heap;  // create the DMA-BUF System Heap file descriptor
+        int32_t fd_heap = 0;  // create the DMA-BUF System Heap file descriptor
         auto remote_tensor = npu_context.create_tensor(in_element_type, in_shape, fd_heap);
         //! [wrap_dmabuf_fd]
     }
diff --git a/docs/articles_en/assets/snippets/ov_dynamic_shapes.c b/docs/articles_en/assets/snippets/ov_dynamic_shapes.c
index 7e720dfc5dc457..fa1f3158365ddf 100644
--- a/docs/articles_en/assets/snippets/ov_dynamic_shapes.c
+++ b/docs/articles_en/assets/snippets/ov_dynamic_shapes.c
@@ -61,14 +61,14 @@ ov_model_t* model = NULL;
 ov_core_read_model(core, "model.xml", NULL, &model);
 
 //! [ov_dynamic_shapes:print_dynamic]
-ov_output_port_t* output_port = NULL;
-ov_output_port_t* input_port = NULL;
+ov_output_const_port_t* output_port = NULL;
+ov_output_const_port_t* input_port = NULL;
 ov_partial_shape_t partial_shape;
-char * str_partial_shape = NULL;
+const char * str_partial_shape = NULL;
 
 // Print output partial shape
 {
-ov_model_output(model, &output_port);
+ov_model_const_output(model, &output_port);
 ov_port_get_partial_shape(output_port, &partial_shape);
 str_partial_shape = ov_partial_shape_to_string(partial_shape);
 printf("The output partial shape: %s", str_partial_shape);
@@ -76,7 +76,7 @@ printf("The output partial shape: %s", str_partial_shape);
 
 // Print input partial shape
 {
-ov_model_input(model, &input_port);
+ov_model_const_input(model, &input_port);
 ov_port_get_partial_shape(input_port, &partial_shape);
 str_partial_shape = ov_partial_shape_to_string(partial_shape);
 printf("The input partial shape: %s", str_partial_shape);
@@ -85,8 +85,8 @@ printf("The input partial shape: %s", str_partial_shape);
 // free allocated resource
 ov_free(str_partial_shape);
 ov_partial_shape_free(&partial_shape);
-ov_output_port_free(output_port);
-ov_output_port_free(input_port);
+ov_output_const_port_free(output_port);
+ov_output_const_port_free(input_port);
 //! [ov_dynamic_shapes:print_dynamic]
 ov_model_free(model);
 ov_core_free(core);
@@ -98,15 +98,15 @@ ov_core_create(&core);
 
 //! [ov_dynamic_shapes:detect_dynamic]
 ov_model_t* model = NULL;
-ov_output_port_t* input_port = NULL;
-ov_output_port_t* output_port = NULL;
+ov_output_const_port_t* input_port = NULL;
+ov_output_const_port_t* output_port = NULL;
 ov_partial_shape_t partial_shape;
 
 ov_core_read_model(core, "model.xml", NULL, &model);
 
 // for input
 {
-ov_model_input_by_index(model, 0, &input_port);
+ov_model_const_input_by_index(model, 0, &input_port);
 ov_port_get_partial_shape(input_port, &partial_shape);
 if (ov_partial_shape_is_dynamic(partial_shape)) {
     // input is dynamic
@@ -115,7 +115,7 @@ if (ov_partial_shape_is_dynamic(partial_shape)) {
 
 // for output
 {
-ov_model_output_by_index(model, 0, &output_port);
+ov_model_const_output_by_index(model, 0, &output_port);
 ov_port_get_partial_shape(output_port, &partial_shape);
 if (ov_partial_shape_is_dynamic(partial_shape)) {
     // output is dynamic
@@ -124,8 +124,8 @@ if (ov_partial_shape_is_dynamic(partial_shape)) {
 
 // free allocated resource
 ov_partial_shape_free(&partial_shape);
-ov_output_port_free(input_port);
-ov_output_port_free(output_port);
+ov_output_const_port_free(input_port);
+ov_output_const_port_free(output_port);
 //! [ov_dynamic_shapes:detect_dynamic]
 ov_model_free(model);
 ov_core_free(core);
@@ -147,8 +147,8 @@ ov_infer_request_t* infer_request = NULL;
 ov_compiled_model_create_infer_request(compiled_model, &infer_request);
 
 //! [ov_dynamic_shapes:set_input_tensor]
-ov_output_port_t* input_port = NULL;
-ov_element_type_e* type = NULL;
+ov_output_const_port_t* input_port = NULL;
+ov_element_type_e type = UNDEFINED;
 ov_shape_t input_shape_1;
 ov_tensor_t* input_tensor_1 = NULL;
 ov_tensor_t* output_tensor = NULL;
@@ -163,8 +163,8 @@ void* data_2 = NULL;
 // Create tensor compatible with the model input
 // Shape {1, 128} is compatible with any reshape statements made in previous examples
 {
-ov_model_input(model, &input_port);
-ov_port_get_element_type(input_port, type);
+ov_model_const_input(model, &input_port);
+ov_port_get_element_type(input_port, &type);
 int64_t dims[2] = {1, 128};
 ov_shape_create(2, dims, &input_shape_1);
 ov_tensor_create(type, input_shape_1, &input_tensor_1);
@@ -214,7 +214,7 @@ ov_tensor_get_shape(output_tensor, &output_shape_2);
 // ... read values in data_2 according to the shape output_shape_2
 
 // free resource
-ov_output_port_free(input_port);
+ov_output_const_port_free(input_port);
 ov_shape_free(&input_shape_1);
 ov_tensor_free(input_tensor_1);
 ov_shape_free(&output_shape_1);
diff --git a/docs/articles_en/assets/snippets/ov_patterns.cpp b/docs/articles_en/assets/snippets/ov_patterns.cpp
index 0382468a01c0e7..ee52c733019d39 100644
--- a/docs/articles_en/assets/snippets/ov_patterns.cpp
+++ b/docs/articles_en/assets/snippets/ov_patterns.cpp
@@ -2,9 +2,6 @@
 // SPDX-License-Identifier: Apache-2.0
 
 // ! [ov:imports]
-#include <gtest/gtest.h>
-
-#include "common_test_utils/matcher.hpp"
 #include "openvino/op/abs.hpp"
 #include "openvino/op/add.hpp"
 #include "openvino/op/matmul.hpp"
@@ -22,7 +19,7 @@ using namespace std;
 // ! [ov:imports]
 
 // ! [ov:create_simple_model_and_pattern]
-TEST(pattern, simple_model_and_pattern) {
+void create_simple_model_and_pattern() {
     // Create a sample model
     PartialShape shape{2, 2};
     auto model_param1 = std::make_shared<ov::op::v0::Parameter>(element::i32, shape);
@@ -39,17 +36,13 @@ TEST(pattern, simple_model_and_pattern) {
     auto pattern_abs = std::make_shared<ov::op::v0::Abs>(pattern_mul->output(0));
     auto pattern_relu = std::make_shared<ov::op::v0::Relu>(pattern_abs->output(0));
 
-    // Create a matcher and try to match the nodes
-    TestMatcher tm;
-
-    // Should perfectly match
-    ASSERT_TRUE(tm.match(pattern_relu, model_relu));
+    // pattern_relu should perfectly match model_relu
 }
 // ! [ov:create_simple_model_and_pattern]
 
 
 // ! [ov:create_simple_model_and_pattern_wrap_type]
-TEST(pattern, simple_model_and_pattern_wrap_type) {
+void create_simple_model_and_pattern_wrap_type() {
     // Create a sample model
     PartialShape shape{2, 2};
     auto model_param1 = std::make_shared<ov::op::v0::Parameter>(element::i32, shape);
@@ -66,17 +59,13 @@ TEST(pattern, simple_model_and_pattern_wrap_type) {
     auto pattern_abs = ov::pass::pattern::wrap_type<ov::op::v0::Abs>({pattern_mul->output(0)});
     auto pattern_relu = ov::pass::pattern::wrap_type<ov::op::v0::Relu>({pattern_abs->output(0)});
 
-    // Create a matcher and try to match the nodes
-    TestMatcher tm;
-
-    // Should perfectly match
-    ASSERT_TRUE(tm.match(pattern_relu, model_relu));
+    // pattern_relu should perfectly match model_relu
 }
 // ! [ov:create_simple_model_and_pattern_wrap_type]
 
 
 // ! [ov:wrap_type_list]
-TEST(pattern, wrap_type_list) {
+void wrap_type_list() {
     // Create a sample model
     PartialShape shape{2, 2};
     auto model_param1 = std::make_shared<ov::op::v0::Parameter>(element::i32, shape);
@@ -95,45 +84,42 @@ TEST(pattern, wrap_type_list) {
     auto pattern_abs = ov::pass::pattern::wrap_type<ov::op::v0::Abs>({pattern_mul->output(0)});
     auto pattern_relu = ov::pass::pattern::wrap_type<ov::op::v0::Relu, ov::op::v0::Sigmoid>({pattern_abs->output(0)});
 
-    // Create a matcher and try to match the nodes
-    TestMatcher tm;
-
-    // The same pattern perfectly matches 2 different nodes
-    ASSERT_TRUE(tm.match(pattern_relu, model_relu));
-    ASSERT_TRUE(tm.match(pattern_relu, model_sig));
+    // pattern_relu should perfectly matches model_relu and model_sig
 }
 // ! [ov:wrap_type_list]
 
 void patterns_misc() {
-// ! [ov:any_input]
-    auto pattern_mul = ov::pass::pattern::wrap_type<ov::op::v0::MatMul>({pattern::any_input(), pattern::any_input()});
-    auto pattern_abs = ov::pass::pattern::wrap_type<ov::op::v0::Abs>({pattern_mul->output(0)});
-    auto pattern_relu = ov::pass::pattern::wrap_type<ov::op::v0::Relu>({pattern_abs->output(0)});
-// ! [ov:any_input]
-
-// ! [ov:wrap_type_predicate]
-    ov::pass::pattern::wrap_type<ov::op::v0::Relu>({pattern::any_input()}, pattern::consumers_count(2));
-// ! [ov:wrap_type_predicate]
-
-
-// ! [ov:any_input_predicate]
-    auto pattern_mul = ov::pass::pattern::wrap_type<ov::op::v0::MatMul>({pattern::any_input([](const Output<Node>& value){
-                                                                            return value.get_shape().size() == 4;}),
-                                                                         pattern::any_input([](const Output<Node>& value){
-                                                                            return value.get_shape().size() == 4;})});
-    auto pattern_abs = ov::pass::pattern::wrap_type<ov::op::v0::Abs>({pattern_mul->output(0)});
-    auto pattern_relu = ov::pass::pattern::wrap_type<ov::op::v0::Relu>({pattern_abs->output(0)});
-// ! [ov:any_input_predicate]
-
-
-// ! [ov:optional_predicate]
-    auto pattern_sig_opt = ov::pass::pattern::optional<ov::op::v0::Sigmoid>(pattern_relu, pattern::consumers_count(2));
-// ! [ov:optional_predicate]
+{
+    // ! [ov:any_input]
+        auto pattern_mul = ov::pass::pattern::wrap_type<ov::op::v0::MatMul>({pattern::any_input(), pattern::any_input()});
+        auto pattern_abs = ov::pass::pattern::wrap_type<ov::op::v0::Abs>({pattern_mul->output(0)});
+        auto pattern_relu = ov::pass::pattern::wrap_type<ov::op::v0::Relu>({pattern_abs->output(0)});
+    // ! [ov:any_input]
+
+    // ! [ov:wrap_type_predicate]
+        ov::pass::pattern::wrap_type<ov::op::v0::Relu>({pattern::any_input()}, pattern::consumers_count(2));
+    // ! [ov:wrap_type_predicate]
+}
+{
+    // ! [ov:any_input_predicate]
+        auto pattern_mul = ov::pass::pattern::wrap_type<ov::op::v0::MatMul>({pattern::any_input([](const Output<Node>& value){
+                                                                                return value.get_shape().size() == 4;}),
+                                                                            pattern::any_input([](const Output<Node>& value){
+                                                                                return value.get_shape().size() == 4;})});
+        auto pattern_abs = ov::pass::pattern::wrap_type<ov::op::v0::Abs>({pattern_mul->output(0)});
+        auto pattern_relu = ov::pass::pattern::wrap_type<ov::op::v0::Relu>({pattern_abs->output(0)});
+    // ! [ov:any_input_predicate]
+
+
+    // ! [ov:optional_predicate]
+        auto pattern_sig_opt = ov::pass::pattern::optional<ov::op::v0::Sigmoid>(pattern_relu, pattern::consumers_count(2));
+    // ! [ov:optional_predicate]
+}
 }
 
 
 // ! [ov:pattern_or]
-TEST(pattern, pattern_or) {
+void pattern_or() {
     // Create a sample model
     PartialShape shape{2, 2};
     auto model_param1 = std::make_shared<ov::op::v0::Parameter>(element::i32, shape);
@@ -158,17 +144,13 @@ TEST(pattern, pattern_or) {
     // Create Or node
     auto pattern_or = std::make_shared<ov::pass::pattern::op::Or>(OutputVector{red_pattern_sigmoid->output(0), blue_pattern_relu->output(0)});
 
-    // Create a matcher and try to match the nodes
-    TestMatcher tm;
-
-    // The same pattern perfectly matches 2 different nodes
-    ASSERT_TRUE(tm.match(pattern_or, model_relu));
+    // pattern_or should perfectly matches model_relu
 }
 // ! [ov:pattern_or]
 
 
 // ! [ov:pattern_optional_middle]
-TEST(pattern, pattern_optional_middle) {
+void pattern_optional_middle() {
     // Create a sample model
     PartialShape shape{2, 2};
     auto model_param1 = std::make_shared<ov::op::v0::Parameter>(element::i32, shape);
@@ -186,17 +168,13 @@ TEST(pattern, pattern_optional_middle) {
     auto pattern_sig_opt = ov::pass::pattern::optional<ov::op::v0::Sigmoid>({pattern_abs->output(0)});
     auto pattern_relu = ov::pass::pattern::wrap_type<ov::op::v0::Relu>({pattern_sig_opt->output(0)});
 
-    // Create a matcher and try to match the nodes
-    TestMatcher tm;
-
-    // Should perfectly match
-    ASSERT_TRUE(tm.match(pattern_relu, model_relu));
+    // pattern_relu should perfectly match model_relu
 }
 // ! [ov:pattern_optional_middle]
 
 
 // ! [ov:pattern_optional_top]
-TEST(pattern, pattern_optional_top) {
+void pattern_optional_top() {
     // Create a sample model
     PartialShape shape{2, 2};
     auto model_param1 = std::make_shared<ov::op::v0::Parameter>(element::i32, shape);
@@ -214,17 +192,13 @@ TEST(pattern, pattern_optional_top) {
     auto pattern_abs = ov::pass::pattern::wrap_type<ov::op::v0::Abs>({pattern_mul->output(0)});
     auto pattern_relu = ov::pass::pattern::wrap_type<ov::op::v0::Relu>({pattern_abs->output(0)});
 
-    // Create a matcher and try to match the nodes
-    TestMatcher tm;
-
-    // Should perfectly match
-    ASSERT_TRUE(tm.match(pattern_relu, model_relu));
+    // pattern_relu should perfectly match model_relu
 }
 // ! [ov:pattern_optional_top]
 
 
 // ! [ov:pattern_optional_root]
-TEST(pattern, pattern_optional_root) {
+void pattern_optional_root() {
     // Create a sample model
     PartialShape shape{2, 2};
     auto model_param1 = std::make_shared<ov::op::v0::Parameter>(element::i32, shape);
@@ -242,10 +216,6 @@ TEST(pattern, pattern_optional_root) {
     auto pattern_relu = ov::pass::pattern::wrap_type<ov::op::v0::Relu>({pattern_abs->output(0)});
     auto pattern_sig_opt = ov::pass::pattern::optional<ov::op::v0::Sigmoid>(pattern_relu);
 
-    // Create a matcher and try to match the nodes
-    TestMatcher tm;
-
-    // Should perfectly match
-    ASSERT_TRUE(tm.match(pattern_relu, model_relu));
+    // pattern_relu should perfectly match model_relu
 }
 // ! [ov:pattern_optional_root]
\ No newline at end of file
diff --git a/docs/articles_en/assets/snippets/ov_sparse_weights_decompression.cpp b/docs/articles_en/assets/snippets/ov_sparse_weights_decompression.cpp
index 61fc1d05ac8d42..81822a8366d96c 100644
--- a/docs/articles_en/assets/snippets/ov_sparse_weights_decompression.cpp
+++ b/docs/articles_en/assets/snippets/ov_sparse_weights_decompression.cpp
@@ -11,7 +11,7 @@ int main() {
         ov::AnyMap config;
         //! [ov:intel_cpu:sparse_weights_decompression:part0]
         ov::Core core;                                                              // Step 1: create ov::Core object
-        core.set_property(ov::intel_cpu::sparse_weights_decompression_rate(0.8));   // Step 1b: Enable sparse weights decompression feature
+        core.set_property(ov::intel_cpu::sparse_weights_decompression_rate(0.8f));   // Step 1b: Enable sparse weights decompression feature
         auto model = core.read_model(modelPath);                                    // Step 2: Read Model
         //...                                                                       // Step 3: Prepare inputs/outputs
         //...                                                                       // Step 4: Set device configuration
diff --git a/docs/snippets/CMakeLists.txt b/docs/snippets/CMakeLists.txt
index e21443b7782137..f853d07328373b 100644
--- a/docs/snippets/CMakeLists.txt
+++ b/docs/snippets/CMakeLists.txt
@@ -18,12 +18,14 @@ endif()
 
 file(GLOB SOURCES "${CMAKE_CURRENT_SOURCE_DIR}/*.cpp"
                   "${CMAKE_CURRENT_SOURCE_DIR}/src/*.cpp"
-                  "${CMAKE_CURRENT_SOURCE_DIR}/src/*.c")
-file(GLOB GPU_SOURCES "${CMAKE_CURRENT_SOURCE_DIR}/gpu/*.cpp")
+                  "${CMAKE_CURRENT_SOURCE_DIR}/src/*.c"
+                  "${CMAKE_CURRENT_SOURCE_DIR}/../articles_en/assets/snippets/*.cpp"
+                  "${CMAKE_CURRENT_SOURCE_DIR}/../articles_en/assets/snippets/*.c")
 
+file(GLOB GPU_SOURCES "${CMAKE_CURRENT_SOURCE_DIR}/../articles_en/assets/snippets/gpu/*.cpp")
 # add GPU snippets if OpenCL has been found
 if(TARGET OpenCL::OpenCL)
-    list(APPEND SOURCES ${GPU_SOURCES})
+    list(APPEND  SOURCES ${GPU_SOURCES})
 endif()
 
 # try to find VA libraries
@@ -38,7 +40,7 @@ endif()
 # remove OpenCV related sources
 find_package(OpenCV QUIET COMPONENTS core imgcodecs)
 if(NOT OpenCV_FOUND OR NOT OpenCV_VERSION VERSION_GREATER_EQUAL 3)
-    list(REMOVE_ITEM SOURCES "${CMAKE_CURRENT_SOURCE_DIR}/ShapeInference.cpp")
+    list(REMOVE_ITEM SOURCES "${CMAKE_CURRENT_SOURCE_DIR}/../articles_en/assets/snippets/ShapeInference.cpp")
 endif()
 
 # requires mfxFrameSurface1 and MSS API

From decdac6fff3fe849560bdb91ca17b2b2ad64f6f5 Mon Sep 17 00:00:00 2001
From: Damian Kurek <damian.kurek@intel.com>
Date: Tue, 6 Aug 2024 18:49:54 +0200
Subject: [PATCH 13/24] [GPU] Use parallel sum reduction in RMS BFYX OPT kernel
 (#25896)

### Details:
 - Use parallel sum reduction for RMS BFYX OPT kernel
 - Improve heuristics

### Tickets:
 - 148937

Co-authored-by: Pavel Durandin <pavel.durandin@intel.com>
---
 .../kernel_selector/cl_kernels/rms_gpu_bfyx_opt.cl  | 13 ++++++++-----
 .../kernels/rms/rms_kernel_bfyx_opt.cpp             |  2 +-
 2 files changed, 9 insertions(+), 6 deletions(-)

diff --git a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/rms_gpu_bfyx_opt.cl b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/rms_gpu_bfyx_opt.cl
index 14a1fa76a29986..eb8d6d823ad39c 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/rms_gpu_bfyx_opt.cl
+++ b/src/plugins/intel_gpu/src/kernel_selector/cl_kernels/rms_gpu_bfyx_opt.cl
@@ -92,12 +92,15 @@ KERNEL(rms_gpu_bfyx_opt)(
         slm_buf[get_sub_group_id()] = rms;
 
     barrier(CLK_LOCAL_MEM_FENCE);
-    if (in_data_idx == 0) {
-        for (uint i = 1; i < get_num_sub_groups(); ++i)
-        {
-            rms += slm_buf[i];
+    for (uint offset = get_num_sub_groups() / 2; offset > 0; offset /= 2) {
+        if (in_data_idx < offset) {
+            slm_buf[in_data_idx] += slm_buf[in_data_idx + offset];
         }
-        rms = rms / data_size;
+        barrier(CLK_LOCAL_MEM_FENCE);
+    }
+
+    if (in_data_idx == 0) {
+        rms = slm_buf[0] / data_size;
         slm_buf[0] = native_powr(sqrt(rms + TO_ACCUMULATOR_TYPE(EPSILON)), -1);
     }
     barrier(CLK_LOCAL_MEM_FENCE);
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/rms/rms_kernel_bfyx_opt.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/rms/rms_kernel_bfyx_opt.cpp
index 6c86863c61aeb7..8d9cda302cf277 100644
--- a/src/plugins/intel_gpu/src/kernel_selector/kernels/rms/rms_kernel_bfyx_opt.cpp
+++ b/src/plugins/intel_gpu/src/kernel_selector/kernels/rms/rms_kernel_bfyx_opt.cpp
@@ -120,7 +120,7 @@ RMSKernelBase::DispatchData RMSKernelBfyxOpt::SetDefault(const rms_params& param
 
         dispatchData.itemsNum = dispatchData.dataSize;
         // Compute maximum possible LWS that does not exceed device capabilities and optimizes number of global memory reads
-        while ((dispatchData.itemsNum > 32 || dispatchData.lws[0] < dispatchData.itemsNum) && (2 * dispatchData.lws[0] <= max_lws)) {
+        while ((dispatchData.itemsNum > 8 || dispatchData.lws[0] < dispatchData.itemsNum) && (2 * dispatchData.lws[0] <= max_lws)) {
             dispatchData.lws[0] *= 2;
             dispatchData.itemsNum /= 2;
         }

From a04986a82ae7f4817fe32fb6b7b6f6093b03ecee Mon Sep 17 00:00:00 2001
From: Egor Tyuvaev <egor.tyuvaev@intel.com>
Date: Tue, 6 Aug 2024 22:48:45 +0200
Subject: [PATCH 14/24] Fix ONNX frontend code generation (#25937)

### Details

ONNX frontend has code generation when `BUILD_SHARED_LIBS=OFF` which
targets a file inside source directory.
When configuring the project, the generated file is written to the
sources directory.
If two configurations are running at the same time (i.e. when trying to
build the package with `vcpkg` it configures debug and release builds
concurrently), both `cmake` instances append lines to the same file
inside source directory which leads to corrupted file content and
cryptic build errors.

This change makes the script write generated header file to a directory
inside build directory, so that two different configuration processes
don't interfere with each other.
---
 src/frontends/onnx/frontend/CMakeLists.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/frontends/onnx/frontend/CMakeLists.txt b/src/frontends/onnx/frontend/CMakeLists.txt
index 0ceeec8f7606a3..80fd16e2ed6483 100644
--- a/src/frontends/onnx/frontend/CMakeLists.txt
+++ b/src/frontends/onnx/frontend/CMakeLists.txt
@@ -4,7 +4,7 @@
 
 if(NOT BUILD_SHARED_LIBS)
     file(GLOB_RECURSE op_list "src/op/*.cpp")
-    set(static_reg_file "src/static_reg.hpp")
+    set(static_reg_file ${CMAKE_CURRENT_BINARY_DIR}/static_reg.hpp)
     file(WRITE ${static_reg_file} "// Copyright (C) 2018-2024 Intel Corporation\n// SPDX-License-Identifier: Apache-2.0\n// Auto generated file, DO NOT EDIT INLINE\n\n")
     file(APPEND ${static_reg_file} "#include \"core/operator_set.hpp\"\n\n")
     file(APPEND ${static_reg_file} "#define ONNX_DECL_OP(op) extern ov::OutputVector op(const Node&)\n\n")

From 1dfb571b8ceef0e988694bd0e6b0bc58d0822eb0 Mon Sep 17 00:00:00 2001
From: Vladimir Paramuzov <vladimir.paramuzov@intel.com>
Date: Wed, 7 Aug 2024 10:45:03 +0400
Subject: [PATCH 15/24] [GPU] Minor refactoring (#25907)

### Details:
- move update of shape info and dispatch data into single `update`
method to avoid shape_info fill for non-ocl impls
 - move `implementation_map.hpp` header to impls/registry folder
 - return device info by ref instead of copy
 - small headers cleanup
 - added missing default c-tors for some primitives
---
 .../intel_gpu/primitives/implementation_desc.hpp    |  1 -
 .../intel_gpu/primitives/non_max_suppression.hpp    |  2 ++
 .../include/intel_gpu/primitives/unique.hpp         |  4 ++++
 .../intel_gpu/include/intel_gpu/runtime/device.hpp  |  2 +-
 .../intel_gpu/include/intel_gpu/runtime/engine.hpp  |  2 +-
 .../graph/graph_optimizer/post_optimize_weights.cpp |  2 +-
 .../prepare_primitive_fusing_through.cpp            |  1 -
 .../intel_gpu/src/graph/impls/common/condition.cpp  |  2 +-
 .../intel_gpu/src/graph/impls/common/loop.cpp       |  3 +--
 .../src/graph/impls/common/wait_for_events.cpp      |  4 ++--
 .../intel_gpu/src/graph/impls/cpu/activation.cpp    |  6 ++----
 .../intel_gpu/src/graph/impls/cpu/assign.cpp        |  3 +--
 .../intel_gpu/src/graph/impls/cpu/broadcast.cpp     |  6 ++----
 .../intel_gpu/src/graph/impls/cpu/concat.cpp        |  6 ++----
 src/plugins/intel_gpu/src/graph/impls/cpu/crop.cpp  |  6 ++----
 .../src/graph/impls/cpu/detection_output.cpp        |  2 +-
 .../intel_gpu/src/graph/impls/cpu/eltwise.cpp       |  6 ++----
 .../intel_gpu/src/graph/impls/cpu/gather.cpp        |  6 ++----
 .../src/graph/impls/cpu/non_max_suppression.cpp     |  2 +-
 .../intel_gpu/src/graph/impls/cpu/proposal.cpp      |  7 ++-----
 src/plugins/intel_gpu/src/graph/impls/cpu/range.cpp |  6 ++----
 .../intel_gpu/src/graph/impls/cpu/read_value.cpp    |  3 +--
 .../intel_gpu/src/graph/impls/cpu/reduce.cpp        |  4 ++--
 .../intel_gpu/src/graph/impls/cpu/reorder.cpp       |  6 ++----
 .../src/graph/impls/cpu/scatter_update.cpp          |  6 ++----
 .../intel_gpu/src/graph/impls/cpu/select.cpp        |  6 ++----
 .../intel_gpu/src/graph/impls/cpu/shape_of.cpp      |  6 ++----
 .../intel_gpu/src/graph/impls/cpu/strided_slice.cpp |  6 ++----
 src/plugins/intel_gpu/src/graph/impls/cpu/tile.cpp  |  6 ++----
 .../src/graph/impls/ocl/multi_stage_primitive.hpp   | 13 ++++++++++++-
 .../src/graph/impls/ocl/primitive_base.hpp          | 13 ++++++++++++-
 .../src/graph/impls/onednn/concatenation_onednn.cpp |  2 +-
 .../src/graph/impls/onednn/convolution_onednn.cpp   |  2 +-
 .../src/graph/impls/onednn/deconvolution_onednn.cpp |  2 +-
 .../src/graph/impls/onednn/eltwise_onednn.cpp       |  2 +-
 .../graph/impls/onednn/fully_connected_onednn.cpp   |  2 +-
 .../src/graph/impls/onednn/gemm_onednn.cpp          |  2 +-
 .../src/graph/impls/onednn/pooling_onednn.cpp       |  2 +-
 .../src/graph/impls/onednn/reduction_onednn.cpp     |  2 +-
 .../src/graph/impls/onednn/reorder_onednn.cpp       |  2 +-
 .../registry}/implementation_map.hpp                |  0
 .../intel_gpu/src/graph/include/primitive_inst.h    |  8 ++++----
 .../src/graph/include/primitive_type_base.h         |  2 +-
 .../intel_gpu/src/graph/include/to_string_utils.h   |  2 --
 src/plugins/intel_gpu/src/graph/input_layout.cpp    |  1 -
 .../intel_gpu/src/graph/layout_optimizer.cpp        |  1 -
 src/plugins/intel_gpu/src/graph/loop.cpp            |  1 -
 src/plugins/intel_gpu/src/graph/multinomial.cpp     |  1 -
 src/plugins/intel_gpu/src/graph/primitive_inst.cpp  |  7 ++-----
 .../src/graph/scaled_dot_product_attention.cpp      |  1 -
 src/plugins/intel_gpu/src/runtime/engine.cpp        |  2 +-
 .../intel_gpu/src/runtime/ocl/ocl_device.hpp        |  8 +-------
 .../src/runtime/ocl/ocl_device_detector.cpp         |  3 +--
 .../tests/unit/module_tests/device_test.cpp         |  2 +-
 .../module_tests/weights_reorder_factory_test.cpp   |  2 +-
 55 files changed, 92 insertions(+), 115 deletions(-)
 rename src/plugins/intel_gpu/src/graph/{include => impls/registry}/implementation_map.hpp (100%)

diff --git a/src/plugins/intel_gpu/include/intel_gpu/primitives/implementation_desc.hpp b/src/plugins/intel_gpu/include/intel_gpu/primitives/implementation_desc.hpp
index eb51b1dfb37307..4e5c53d6b37e3e 100644
--- a/src/plugins/intel_gpu/include/intel_gpu/primitives/implementation_desc.hpp
+++ b/src/plugins/intel_gpu/include/intel_gpu/primitives/implementation_desc.hpp
@@ -9,7 +9,6 @@
 
 #include "openvino/core/except.hpp"
 #include "intel_gpu/primitives/primitive.hpp"
-#include "intel_gpu/runtime/tensor.hpp"
 
 namespace cldnn {
 
diff --git a/src/plugins/intel_gpu/include/intel_gpu/primitives/non_max_suppression.hpp b/src/plugins/intel_gpu/include/intel_gpu/primitives/non_max_suppression.hpp
index 2a0b81b2aba20d..b2497c6d711d7b 100644
--- a/src/plugins/intel_gpu/include/intel_gpu/primitives/non_max_suppression.hpp
+++ b/src/plugins/intel_gpu/include/intel_gpu/primitives/non_max_suppression.hpp
@@ -160,6 +160,8 @@ struct non_max_suppression : public primitive_base<non_max_suppression> {
 struct non_max_suppression_gather : primitive_base<non_max_suppression_gather> {
     CLDNN_DECLARE_PRIMITIVE(non_max_suppression_gather)
 
+    non_max_suppression_gather() : primitive_base("", {}) {}
+
     /// @brief Constructs non_max_suppression_gather primitive.
     /// @param id This primitive id.
     /// @param inputs Input primitives ids.
diff --git a/src/plugins/intel_gpu/include/intel_gpu/primitives/unique.hpp b/src/plugins/intel_gpu/include/intel_gpu/primitives/unique.hpp
index 5dc7e61bc21734..5563bf8acf54d5 100644
--- a/src/plugins/intel_gpu/include/intel_gpu/primitives/unique.hpp
+++ b/src/plugins/intel_gpu/include/intel_gpu/primitives/unique.hpp
@@ -13,6 +13,8 @@ namespace cldnn {
 struct unique_count : primitive_base<unique_count> {
     CLDNN_DECLARE_PRIMITIVE(unique_count)
 
+    unique_count() : primitive_base("", {}) {}
+
     /// @brief Constructs unique_count primitive.
     /// @param id This primitive id.
     /// @param input Input primitive id.
@@ -45,6 +47,8 @@ struct unique_count : primitive_base<unique_count> {
 struct unique_gather : primitive_base<unique_gather> {
     CLDNN_DECLARE_PRIMITIVE(unique_gather)
 
+    unique_gather() : primitive_base("", {}) {}
+
     /// @brief Constructs unique_gather primitive.
     /// @param id This primitive id.
     /// @param inputs Input primitives ids.
diff --git a/src/plugins/intel_gpu/include/intel_gpu/runtime/device.hpp b/src/plugins/intel_gpu/include/intel_gpu/runtime/device.hpp
index d0105b0e83a028..63f0311f675123 100644
--- a/src/plugins/intel_gpu/include/intel_gpu/runtime/device.hpp
+++ b/src/plugins/intel_gpu/include/intel_gpu/runtime/device.hpp
@@ -18,7 +18,7 @@ const uint32_t INTEL_VENDOR_ID = 0x8086;
 struct device {
 public:
     using ptr = std::shared_ptr<device>;
-    virtual device_info get_info() const = 0;
+    virtual const device_info& get_info() const = 0;
     virtual memory_capabilities get_mem_caps() const = 0;
 
     virtual bool is_same(const device::ptr other) = 0;
diff --git a/src/plugins/intel_gpu/include/intel_gpu/runtime/engine.hpp b/src/plugins/intel_gpu/include/intel_gpu/runtime/engine.hpp
index 7e77ceb6785cb5..79e37d1890b78d 100644
--- a/src/plugins/intel_gpu/include/intel_gpu/runtime/engine.hpp
+++ b/src/plugins/intel_gpu/include/intel_gpu/runtime/engine.hpp
@@ -94,7 +94,7 @@ class engine {
     bool supports_allocation(allocation_type type) const;
 
     /// Returns device structure which represents stores device capabilities
-    device_info get_device_info() const;
+    const device_info& get_device_info() const;
 
     /// Returns device object associated with the engine
     const device::ptr get_device() const;
diff --git a/src/plugins/intel_gpu/src/graph/graph_optimizer/post_optimize_weights.cpp b/src/plugins/intel_gpu/src/graph/graph_optimizer/post_optimize_weights.cpp
index f7b4db99afa092..5441d4a7930a51 100644
--- a/src/plugins/intel_gpu/src/graph/graph_optimizer/post_optimize_weights.cpp
+++ b/src/plugins/intel_gpu/src/graph/graph_optimizer/post_optimize_weights.cpp
@@ -4,7 +4,7 @@
 
 #include "pass_manager.h"
 #include "program_helpers.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "convolution_inst.h"
 #include "deconvolution_inst.h"
diff --git a/src/plugins/intel_gpu/src/graph/graph_optimizer/prepare_primitive_fusing_through.cpp b/src/plugins/intel_gpu/src/graph/graph_optimizer/prepare_primitive_fusing_through.cpp
index 64895c4b6f2814..f63f1bf4efbe21 100644
--- a/src/plugins/intel_gpu/src/graph/graph_optimizer/prepare_primitive_fusing_through.cpp
+++ b/src/plugins/intel_gpu/src/graph/graph_optimizer/prepare_primitive_fusing_through.cpp
@@ -2,7 +2,6 @@
 // SPDX-License-Identifier: Apache-2.0
 //
 
-#include "intel_gpu/runtime/error_handler.hpp"
 #include "pass_manager.h"
 #include "program_helpers.h"
 #include "strided_slice_inst.h"
diff --git a/src/plugins/intel_gpu/src/graph/impls/common/condition.cpp b/src/plugins/intel_gpu/src/graph/impls/common/condition.cpp
index 49b2ab5aa38c0b..300d93bc96f708 100644
--- a/src/plugins/intel_gpu/src/graph/impls/common/condition.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/common/condition.cpp
@@ -4,7 +4,7 @@
 
 #include "condition_inst.h"
 #include "data_inst.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 #include "register.hpp"
 
 #include <algorithm>
diff --git a/src/plugins/intel_gpu/src/graph/impls/common/loop.cpp b/src/plugins/intel_gpu/src/graph/impls/common/loop.cpp
index b11fb675f76196..f8aac08a07af04 100644
--- a/src/plugins/intel_gpu/src/graph/impls/common/loop.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/common/loop.cpp
@@ -2,11 +2,10 @@
 // SPDX-License-Identifier: Apache-2.0
 //
 #include "loop_inst.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 #include "register.hpp"
 #include "mutable_data_inst.h"
 #include "input_layout_inst.h"
-#include "intel_gpu/runtime/error_handler.hpp"
 #include <vector>
 #include <algorithm>
 
diff --git a/src/plugins/intel_gpu/src/graph/impls/common/wait_for_events.cpp b/src/plugins/intel_gpu/src/graph/impls/common/wait_for_events.cpp
index d8cce52a0aa167..35b433933d1295 100644
--- a/src/plugins/intel_gpu/src/graph/impls/common/wait_for_events.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/common/wait_for_events.cpp
@@ -6,7 +6,7 @@
 #include "data_inst.h"
 #include "prior_box_inst.h"
 #include "input_layout_inst.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 #include "register.hpp"
 #include "intel_gpu/graph/serialization/binary_buffer.hpp"
 #include <vector>
@@ -54,7 +54,7 @@ class wait_for_events_impl : public primitive_impl {
         return make_unique<wait_for_events_impl>(prior_box);
     }
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override { }
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override { }
 };
 
 namespace detail {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/activation.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/activation.cpp
index 16084f47efea1f..e750303b955d77 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/activation.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/activation.cpp
@@ -5,9 +5,7 @@
 #include "openvino/core/type/element_type_traits.hpp"
 #include "register.hpp"
 #include "activation_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/power.hpp"
 #include "openvino/op/tanh.hpp"
@@ -290,7 +288,7 @@ struct activation_impl : public typed_primitive_impl<activation> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const activation_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/assign.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/assign.cpp
index 7d11374f178c23..d03c49fb28efbe 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/assign.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/assign.cpp
@@ -3,9 +3,8 @@
 //
 
 #include "assign_inst.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 #include "register.hpp"
-#include "intel_gpu/runtime/error_handler.hpp"
 
 namespace cldnn {
 namespace cpu {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/broadcast.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/broadcast.cpp
index 515615f700a847..79a6b77f442cba 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/broadcast.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/broadcast.cpp
@@ -4,9 +4,7 @@
 
 #include "register.hpp"
 #include "broadcast_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/broadcast.hpp"
 
@@ -124,7 +122,7 @@ struct broadcast_impl : public typed_primitive_impl<broadcast> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const broadcast_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/concat.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/concat.cpp
index 85fd52fa3a24b6..6b7a483bae7d8c 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/concat.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/concat.cpp
@@ -4,9 +4,7 @@
 
 #include "register.hpp"
 #include "concatenation_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/concat.hpp"
 
@@ -111,7 +109,7 @@ struct concatenation_impl : public typed_primitive_impl<concatenation> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const concatenation_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/crop.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/crop.cpp
index 7b58dcdb20010c..6633bca02da8d2 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/crop.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/crop.cpp
@@ -6,9 +6,7 @@
 
 #include "register.hpp"
 #include "crop_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/slice.hpp"
 
@@ -113,7 +111,7 @@ struct crop_impl : public typed_primitive_impl<crop> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const crop_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/detection_output.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/detection_output.cpp
index 364ac62d1d1510..c2a01b56c63740 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/detection_output.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/detection_output.cpp
@@ -3,7 +3,7 @@
 //
 
 #include "detection_output_inst.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 #include "register.hpp"
 #include "cpu_impl_helpers.hpp"
 
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/eltwise.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/eltwise.cpp
index 67fd065412fe12..eb10f340d2656b 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/eltwise.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/eltwise.cpp
@@ -4,9 +4,7 @@
 
 #include "register.hpp"
 #include "eltwise_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/add.hpp"
 #include "openvino/op/multiply.hpp"
@@ -205,7 +203,7 @@ struct eltwise_impl : public typed_primitive_impl<eltwise> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const eltwise_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/gather.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/gather.cpp
index 5a6de3fd749e4f..242273a23dd000 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/gather.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/gather.cpp
@@ -4,9 +4,7 @@
 
 #include "register.hpp"
 #include "gather_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/gather.hpp"
 
@@ -114,7 +112,7 @@ struct gather_impl : public typed_primitive_impl<gather> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const gather_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/non_max_suppression.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/non_max_suppression.cpp
index f38efcd5c0d30c..4783159d501404 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/non_max_suppression.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/non_max_suppression.cpp
@@ -6,7 +6,7 @@
 #include "primitive_inst.h"
 #include "register.hpp"
 #include "cpu_impl_helpers.hpp"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include <vector>
 #include <queue>
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/proposal.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/proposal.cpp
index 6e89d4d25d8106..e49cb3a832f8ae 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/proposal.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/proposal.cpp
@@ -4,8 +4,7 @@
 
 #include "proposal_inst.h"
 #include "intel_gpu/runtime/engine.hpp"
-#include "implementation_map.hpp"
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 #include "register.hpp"
 
 #include <algorithm>
@@ -457,9 +456,7 @@ struct proposal_impl : typed_primitive_impl<proposal> {
             // - image_info[3] = { img_height, img_width, img_depth }
             // - image_info[4] = { img_height, img_width, scale_min_bbox_y, scale_min_bbox_x }
             // - image_info[6] = { img_height, img_width, img_depth, scale_min_bbox_y, scale_min_bbox_x, scale_depth_index }
-            if (count != 3 && count != 4 && count != 6) {
-                CLDNN_ERROR_MESSAGE(arg.id(), "image_info must have either 3, 4 or 6 items");
-            }
+            OPENVINO_ASSERT(one_of(count, {3, 4, 6}), arg.id(), "image_info must have either 3, 4 or 6 items");
         }
 
         return make_unique<proposal_impl>(arg);
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/range.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/range.cpp
index 26515c0a35cd92..83142812f29e8b 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/range.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/range.cpp
@@ -4,9 +4,7 @@
 
 #include "register.hpp"
 #include "range_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/range.hpp"
 
@@ -91,7 +89,7 @@ struct range_impl : public typed_primitive_impl<range> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const range_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/read_value.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/read_value.cpp
index 20a8a4afa0e8e3..6c16618ac816d0 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/read_value.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/read_value.cpp
@@ -3,9 +3,8 @@
 //
 
 #include "read_value_inst.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 #include "register.hpp"
-#include "intel_gpu/runtime/error_handler.hpp"
 
 namespace cldnn {
 namespace cpu {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/reduce.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/reduce.cpp
index 80bd72f74528b2..5a3867f9d1582a 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/reduce.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/reduce.cpp
@@ -4,7 +4,7 @@
 
 #include "register.hpp"
 #include "reduce_inst.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/reduce_max.hpp"
 #include "openvino/op/reduce_sum.hpp"
@@ -149,7 +149,7 @@ struct reduce_impl : public typed_primitive_impl<reduce> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const reduce_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/reorder.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/reorder.cpp
index 98c5d618aebcfa..1b6f145c4ceb2d 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/reorder.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/reorder.cpp
@@ -4,9 +4,7 @@
 
 #include "register.hpp"
 #include "reorder_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/convert.hpp"
 
@@ -84,7 +82,7 @@ struct reorder_impl : public typed_primitive_impl<reorder> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const reorder_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/scatter_update.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/scatter_update.cpp
index 13b97cdf818726..1a329ea495ef82 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/scatter_update.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/scatter_update.cpp
@@ -4,9 +4,7 @@
 
 #include "register.hpp"
 #include "scatter_update_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/scatter_update.hpp"
 
@@ -106,7 +104,7 @@ struct scatter_update_impl : public typed_primitive_impl<scatter_update> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const scatter_update_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/select.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/select.cpp
index 47728050f9731c..9c9ab75f64ad59 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/select.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/select.cpp
@@ -4,9 +4,7 @@
 
 #include "register.hpp"
 #include "select_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/select.hpp"
 
@@ -101,7 +99,7 @@ struct select_impl : public typed_primitive_impl<select> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const select_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/shape_of.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/shape_of.cpp
index e94ee9d4ebb24d..ad9a0d9167bf87 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/shape_of.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/shape_of.cpp
@@ -4,9 +4,7 @@
 
 #include "register.hpp"
 #include "shape_of_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/shape_of.hpp"
 
@@ -73,7 +71,7 @@ struct shape_of_impl : public typed_primitive_impl<shape_of> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const shape_of_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/strided_slice.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/strided_slice.cpp
index bf720cc937355d..318d9dc1d2cc1d 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/strided_slice.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/strided_slice.cpp
@@ -4,9 +4,7 @@
 
 #include "register.hpp"
 #include "strided_slice_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/strided_slice.hpp"
 
@@ -180,7 +178,7 @@ struct strided_slice_impl : public typed_primitive_impl<strided_slice> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const strided_slice_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/cpu/tile.cpp b/src/plugins/intel_gpu/src/graph/impls/cpu/tile.cpp
index 15e6886c2fc47b..18223449030e36 100644
--- a/src/plugins/intel_gpu/src/graph/impls/cpu/tile.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/cpu/tile.cpp
@@ -4,9 +4,7 @@
 
 #include "register.hpp"
 #include "tile_inst.h"
-#include "implementation_map.hpp"
-
-#include "intel_gpu/runtime/error_handler.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "openvino/op/tile.hpp"
 
@@ -108,7 +106,7 @@ struct tile_impl : public typed_primitive_impl<tile> {
 
     void init_kernels(const kernels_cache& , const kernel_impl_params&) override {}
 
-    void update_dispatch_data(const kernel_impl_params& impl_param) override {}
+    void update(primitive_inst& inst, const kernel_impl_params& impl_param) override {}
 
 public:
     static std::unique_ptr<primitive_impl> create(const tile_node& arg, const kernel_impl_params& impl_param) {
diff --git a/src/plugins/intel_gpu/src/graph/impls/ocl/multi_stage_primitive.hpp b/src/plugins/intel_gpu/src/graph/impls/ocl/multi_stage_primitive.hpp
index b035e6b900e92c..9d8784272610dc 100644
--- a/src/plugins/intel_gpu/src/graph/impls/ocl/multi_stage_primitive.hpp
+++ b/src/plugins/intel_gpu/src/graph/impls/ocl/multi_stage_primitive.hpp
@@ -18,7 +18,7 @@
 #include "primitive_inst.h"
 #include "kernel_selector_helper.h"
 #include "register.hpp"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 #include "concatenation_inst.h"
 #include "gather_inst.h"
 #include "permute_inst.h"
@@ -94,6 +94,12 @@ struct multi_stage_primitive : public typed_primitive_impl<PType> {
         }
     }
 
+    void update(primitive_inst& inst, const kernel_impl_params& impl_params) override {
+        auto new_impl_params = this->canonicalize_shapes(impl_params);
+        update_dispatch_data(new_impl_params);
+        inst.update_shape_info_tensor(new_impl_params);
+    }
+
 protected:
     virtual kernel_arguments_data get_arguments(const typed_primitive_inst<PType>& instance, size_t stage) const = 0;
 
@@ -227,6 +233,11 @@ struct multi_stage_primitive : public typed_primitive_impl<PType> {
     std::pair<std::string, std::string> get_kernels_dump_info() const override {
         return kernel_dump_info;
     }
+
+    virtual void update_dispatch_data(const kernel_impl_params& impl_params) {
+        OPENVINO_ASSERT(this->_is_dynamic, "[GPU] update_dispatch_data() is called for static shape implementation ", this-> _kernel_name);
+        OPENVINO_ASSERT(false, "[GPU] update_dispatch_data() is not implemented for dynamic implemenation ", this->_kernel_name);
+    }
 };
 
 }  // namespace ocl
diff --git a/src/plugins/intel_gpu/src/graph/impls/ocl/primitive_base.hpp b/src/plugins/intel_gpu/src/graph/impls/ocl/primitive_base.hpp
index 2f65bbc7b3ea43..15617e16c22dc2 100644
--- a/src/plugins/intel_gpu/src/graph/impls/ocl/primitive_base.hpp
+++ b/src/plugins/intel_gpu/src/graph/impls/ocl/primitive_base.hpp
@@ -16,7 +16,7 @@
 #include "primitive_inst.h"
 #include "kernel_selector_helper.h"
 #include "register.hpp"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 #include "concatenation_inst.h"
 #include "gather_inst.h"
 #include "permute_inst.h"
@@ -103,6 +103,12 @@ struct typed_primitive_impl_ocl : public typed_primitive_impl<PType> {
         return make_unique<ImplType>(best_kernel);
     }
 
+    void update(primitive_inst& inst, const kernel_impl_params& impl_params) override {
+        auto new_impl_params = this->canonicalize_shapes(impl_params);
+        update_dispatch_data(new_impl_params);
+        inst.update_shape_info_tensor(new_impl_params);
+    }
+
 protected:
     virtual kernel_arguments_data get_arguments(const typed_primitive_inst<PType>& instance) const {
         kernel_arguments_data args;
@@ -313,6 +319,11 @@ struct typed_primitive_impl_ocl : public typed_primitive_impl<PType> {
     std::pair<std::string, std::string> get_kernels_dump_info() const override {
         return kernel_dump_info;
     }
+
+    virtual void update_dispatch_data(const kernel_impl_params& impl_params) {
+        OPENVINO_ASSERT(this->_is_dynamic, "[GPU] update_dispatch_data() is called for static shape implementation ", this-> _kernel_name);
+        OPENVINO_ASSERT(false, "[GPU] update_dispatch_data() is not implemented for dynamic implemenation ", this->_kernel_name);
+    }
 };
 
 }  // namespace ocl
diff --git a/src/plugins/intel_gpu/src/graph/impls/onednn/concatenation_onednn.cpp b/src/plugins/intel_gpu/src/graph/impls/onednn/concatenation_onednn.cpp
index 5533f3b8894550..98e190bb1ba335 100644
--- a/src/plugins/intel_gpu/src/graph/impls/onednn/concatenation_onednn.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/onednn/concatenation_onednn.cpp
@@ -6,7 +6,7 @@
 #include "eltwise_inst.h"
 #include "quantize_inst.h"
 #include "primitive_onednn_base.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "kernel_selector_common.h"
 
diff --git a/src/plugins/intel_gpu/src/graph/impls/onednn/convolution_onednn.cpp b/src/plugins/intel_gpu/src/graph/impls/onednn/convolution_onednn.cpp
index f2642de7a8aace..a52314b3fd7ca3 100644
--- a/src/plugins/intel_gpu/src/graph/impls/onednn/convolution_onednn.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/onednn/convolution_onednn.cpp
@@ -7,7 +7,7 @@
 #include "intel_gpu/runtime/format.hpp"
 #include "quantize_inst.h"
 #include "primitive_onednn_base.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "impls/ocl/kernel_selector_helper.h"
 
diff --git a/src/plugins/intel_gpu/src/graph/impls/onednn/deconvolution_onednn.cpp b/src/plugins/intel_gpu/src/graph/impls/onednn/deconvolution_onednn.cpp
index 4ede876d9098af..e3c29145aac2fe 100644
--- a/src/plugins/intel_gpu/src/graph/impls/onednn/deconvolution_onednn.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/onednn/deconvolution_onednn.cpp
@@ -7,7 +7,7 @@
 #include "impls/onednn/utils.hpp"
 #include "quantize_inst.h"
 #include "primitive_onednn_base.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "impls/ocl/kernel_selector_helper.h"
 
diff --git a/src/plugins/intel_gpu/src/graph/impls/onednn/eltwise_onednn.cpp b/src/plugins/intel_gpu/src/graph/impls/onednn/eltwise_onednn.cpp
index bdf98609f8e38a..28874b34a1efdd 100644
--- a/src/plugins/intel_gpu/src/graph/impls/onednn/eltwise_onednn.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/onednn/eltwise_onednn.cpp
@@ -4,7 +4,7 @@
 
 #include "eltwise_inst.h"
 #include "primitive_onednn_base.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "kernel_selector_common.h"
 
diff --git a/src/plugins/intel_gpu/src/graph/impls/onednn/fully_connected_onednn.cpp b/src/plugins/intel_gpu/src/graph/impls/onednn/fully_connected_onednn.cpp
index 619797c1f78432..89a59324dd6f57 100644
--- a/src/plugins/intel_gpu/src/graph/impls/onednn/fully_connected_onednn.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/onednn/fully_connected_onednn.cpp
@@ -4,7 +4,7 @@
 
 #include "fully_connected_inst.h"
 #include "primitive_onednn_base.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "impls/ocl/kernel_selector_helper.h"
 
diff --git a/src/plugins/intel_gpu/src/graph/impls/onednn/gemm_onednn.cpp b/src/plugins/intel_gpu/src/graph/impls/onednn/gemm_onednn.cpp
index 3e4036964b6c18..066d5a4739e1d9 100644
--- a/src/plugins/intel_gpu/src/graph/impls/onednn/gemm_onednn.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/onednn/gemm_onednn.cpp
@@ -4,7 +4,7 @@
 
 #include "gemm_inst.h"
 #include "primitive_onednn_base.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "kernel_selector_common.h"
 
diff --git a/src/plugins/intel_gpu/src/graph/impls/onednn/pooling_onednn.cpp b/src/plugins/intel_gpu/src/graph/impls/onednn/pooling_onednn.cpp
index 345e1c4401b4fd..8f6533fc32471a 100644
--- a/src/plugins/intel_gpu/src/graph/impls/onednn/pooling_onednn.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/onednn/pooling_onednn.cpp
@@ -4,7 +4,7 @@
 
 #include "pooling_inst.h"
 #include "primitive_onednn_base.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "kernel_selector_common.h"
 
diff --git a/src/plugins/intel_gpu/src/graph/impls/onednn/reduction_onednn.cpp b/src/plugins/intel_gpu/src/graph/impls/onednn/reduction_onednn.cpp
index 107fcb1f4ecc6e..29c1a8182571da 100644
--- a/src/plugins/intel_gpu/src/graph/impls/onednn/reduction_onednn.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/onednn/reduction_onednn.cpp
@@ -4,7 +4,7 @@
 
 #include "reduce_inst.h"
 #include "primitive_onednn_base.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "kernel_selector_common.h"
 #include "kernel_base.h"
diff --git a/src/plugins/intel_gpu/src/graph/impls/onednn/reorder_onednn.cpp b/src/plugins/intel_gpu/src/graph/impls/onednn/reorder_onednn.cpp
index 899d4ab29a87de..b206b8fb291c13 100644
--- a/src/plugins/intel_gpu/src/graph/impls/onednn/reorder_onednn.cpp
+++ b/src/plugins/intel_gpu/src/graph/impls/onednn/reorder_onednn.cpp
@@ -5,7 +5,7 @@
 #include "impls/onednn/utils.hpp"
 #include "reorder_inst.h"
 #include "primitive_onednn_base.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include "kernel_selector_common.h"
 
diff --git a/src/plugins/intel_gpu/src/graph/include/implementation_map.hpp b/src/plugins/intel_gpu/src/graph/impls/registry/implementation_map.hpp
similarity index 100%
rename from src/plugins/intel_gpu/src/graph/include/implementation_map.hpp
rename to src/plugins/intel_gpu/src/graph/impls/registry/implementation_map.hpp
diff --git a/src/plugins/intel_gpu/src/graph/include/primitive_inst.h b/src/plugins/intel_gpu/src/graph/include/primitive_inst.h
index e0edfb5507cbf5..a4a3252de6f82c 100644
--- a/src/plugins/intel_gpu/src/graph/include/primitive_inst.h
+++ b/src/plugins/intel_gpu/src/graph/include/primitive_inst.h
@@ -103,9 +103,9 @@ struct primitive_impl {
     void set_dynamic(bool val) { _is_dynamic = val; }
     bool is_dynamic() const { return _is_dynamic; }
 
-    virtual void update_dispatch_data(const kernel_impl_params& impl_params) {
-        OPENVINO_ASSERT(_is_dynamic, "[GPU] update_dispatch_data is called for static shape implementation ", _kernel_name);
-        OPENVINO_ASSERT(false, "[GPU] update_dispatch_data is not implemented for dynamic implemenation ", _kernel_name);
+    virtual void update(primitive_inst& inst, const kernel_impl_params& impl_params) {
+        OPENVINO_ASSERT(_is_dynamic, "[GPU] update() is called for static shape implementation ", _kernel_name);
+        OPENVINO_ASSERT(false, "[GPU] update() is not implemented for dynamic implemenation ", _kernel_name);
     }
 
     static kernel_impl_params static_canonicalize_shapes(const kernel_impl_params& impl_params);
@@ -303,6 +303,7 @@ class primitive_inst {
     virtual void update_output_memory() {}
 
     virtual int32_t get_prealloc_iter_num() { return -1; }
+    virtual void update_shape_info_tensor(const kernel_impl_params& params);
 
     virtual kernel_impl_params get_fake_aligned_params(kernel_impl_params const& orig_impl_param) {
         return std::move(orig_impl_param);
@@ -397,7 +398,6 @@ class primitive_inst {
 
     virtual void update_shape();
     virtual event::ptr update_weights();
-    virtual void update_shape_info_tensor(const kernel_impl_params& params);
 
     void fill_shape_info_data(const layout& runtime_layout, const layout& node_layout, int32_t* shape_info_ptr, size_t& offset);
     bool use_async_compilation();
diff --git a/src/plugins/intel_gpu/src/graph/include/primitive_type_base.h b/src/plugins/intel_gpu/src/graph/include/primitive_type_base.h
index 2fea8bac80a62b..de3c9e5e4db12d 100644
--- a/src/plugins/intel_gpu/src/graph/include/primitive_type_base.h
+++ b/src/plugins/intel_gpu/src/graph/include/primitive_type_base.h
@@ -13,7 +13,7 @@
 #include "program_node.h"
 #include "primitive_inst.h"
 #include "intel_gpu/graph/network.hpp"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 
 #include <memory>
 #include <string>
diff --git a/src/plugins/intel_gpu/src/graph/include/to_string_utils.h b/src/plugins/intel_gpu/src/graph/include/to_string_utils.h
index 0d881f8227736d..404bb00fe8b673 100644
--- a/src/plugins/intel_gpu/src/graph/include/to_string_utils.h
+++ b/src/plugins/intel_gpu/src/graph/include/to_string_utils.h
@@ -4,9 +4,7 @@
 
 #pragma once
 
-#include "intel_gpu/runtime/tensor.hpp"
 #include "intel_gpu/runtime/layout.hpp"
-#include "intel_gpu/runtime/device.hpp"
 #include "intel_gpu/primitives/primitive.hpp"
 #include "intel_gpu/primitives/activation.hpp"
 
diff --git a/src/plugins/intel_gpu/src/graph/input_layout.cpp b/src/plugins/intel_gpu/src/graph/input_layout.cpp
index 69c691768f1b3f..69cf2e7f834d2d 100644
--- a/src/plugins/intel_gpu/src/graph/input_layout.cpp
+++ b/src/plugins/intel_gpu/src/graph/input_layout.cpp
@@ -4,7 +4,6 @@
 #include "input_layout_inst.h"
 #include "primitive_type_base.h"
 #include "intel_gpu/runtime/memory.hpp"
-#include "intel_gpu/runtime/error_handler.hpp"
 #include "json_object.h"
 #include <string>
 #include <memory>
diff --git a/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp b/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp
index bcada1fa769fea..7a10ca4df9f74b 100644
--- a/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp
+++ b/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp
@@ -5,7 +5,6 @@
 #include "layout_optimizer.h"
 #include "primitive_inst.h"
 #include "program_helpers.h"
-#include "intel_gpu/runtime/error_handler.hpp"
 #include "intel_gpu/runtime/debug_configuration.hpp"
 #include "data_inst.h"
 #include "reorder_inst.h"
diff --git a/src/plugins/intel_gpu/src/graph/loop.cpp b/src/plugins/intel_gpu/src/graph/loop.cpp
index 08944f43a4287d..51a7f5f0040a8f 100644
--- a/src/plugins/intel_gpu/src/graph/loop.cpp
+++ b/src/plugins/intel_gpu/src/graph/loop.cpp
@@ -10,7 +10,6 @@
 #include "intel_gpu/plugin/common_utils.hpp"
 #include "intel_gpu/primitives/data.hpp"
 #include "intel_gpu/primitives/mutable_data.hpp"
-#include "intel_gpu/runtime/error_handler.hpp"
 #include <string>
 #include <exception>
 #include <algorithm>
diff --git a/src/plugins/intel_gpu/src/graph/multinomial.cpp b/src/plugins/intel_gpu/src/graph/multinomial.cpp
index 3fc084615eed94..fb33bc77844e35 100644
--- a/src/plugins/intel_gpu/src/graph/multinomial.cpp
+++ b/src/plugins/intel_gpu/src/graph/multinomial.cpp
@@ -1,7 +1,6 @@
 // Copyright (C) 2023 Intel Corporation
 // SPDX-License-Identifier: Apache-2.0
 //
-#include "intel_gpu/runtime/error_handler.hpp"
 #include "intel_gpu/runtime/memory.hpp"
 #include "json_object.h"
 #include "primitive_type_base.h"
diff --git a/src/plugins/intel_gpu/src/graph/primitive_inst.cpp b/src/plugins/intel_gpu/src/graph/primitive_inst.cpp
index b09930fde4966c..3268740984d519 100644
--- a/src/plugins/intel_gpu/src/graph/primitive_inst.cpp
+++ b/src/plugins/intel_gpu/src/graph/primitive_inst.cpp
@@ -31,7 +31,7 @@
 #include "gather_inst.h"
 #include "broadcast_inst.h"
 #include "experimental_detectron_roi_feature_extractor_inst.hpp"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 #include "graph_optimizer/prepare_buffer_fusing.h"
 
 #include "intel_gpu/plugin/common_utils.hpp"
@@ -39,7 +39,6 @@
 #include "intel_gpu/graph/serialization/set_serializer.hpp"
 #include "intel_gpu/runtime/engine.hpp"
 #include "intel_gpu/runtime/memory.hpp"
-#include "intel_gpu/runtime/error_handler.hpp"
 #include "intel_gpu/runtime/debug_configuration.hpp"
 #include "intel_gpu/runtime/compilation_context.hpp"
 
@@ -1011,9 +1010,7 @@ bool primitive_inst::update_impl(bool use_async_compilation) {
                 if (!can_be_optimized())  {
                     if (!is_current_impl_dynamic)
                         _impl = std::move(_dynamic_impl);
-                    auto new_impl_params = _impl->canonicalize_shapes(*_impl_params);
-                    _impl->update_dispatch_data(new_impl_params);
-                    update_shape_info_tensor(new_impl_params);
+                    _impl->update(*this, *_impl_params);
                 }
             } else {
                 _impl = _node->type()->choose_impl(*_node, updated_params);
diff --git a/src/plugins/intel_gpu/src/graph/scaled_dot_product_attention.cpp b/src/plugins/intel_gpu/src/graph/scaled_dot_product_attention.cpp
index a942c775ca8df9..e8e213ad97011a 100644
--- a/src/plugins/intel_gpu/src/graph/scaled_dot_product_attention.cpp
+++ b/src/plugins/intel_gpu/src/graph/scaled_dot_product_attention.cpp
@@ -5,7 +5,6 @@
 #include "scaled_dot_product_attention_inst.h"
 
 #include "primitive_type_base.h"
-#include "intel_gpu/runtime/error_handler.hpp"
 #include "json_object.h"
 #include <string>
 #include <vector>
diff --git a/src/plugins/intel_gpu/src/runtime/engine.cpp b/src/plugins/intel_gpu/src/runtime/engine.cpp
index 73da14f6e16f47..e8879905ffe40a 100644
--- a/src/plugins/intel_gpu/src/runtime/engine.cpp
+++ b/src/plugins/intel_gpu/src/runtime/engine.cpp
@@ -62,7 +62,7 @@ namespace cldnn {
 engine::engine(const device::ptr device)
     : _device(device) {}
 
-device_info engine::get_device_info() const {
+const device_info& engine::get_device_info() const {
     return _device->get_info();
 }
 
diff --git a/src/plugins/intel_gpu/src/runtime/ocl/ocl_device.hpp b/src/plugins/intel_gpu/src/runtime/ocl/ocl_device.hpp
index a7d8be005f0762..24102b91a192b2 100644
--- a/src/plugins/intel_gpu/src/runtime/ocl/ocl_device.hpp
+++ b/src/plugins/intel_gpu/src/runtime/ocl/ocl_device.hpp
@@ -4,15 +4,9 @@
 
 #pragma once
 
-#include "intel_gpu/runtime/engine.hpp"
 #include "intel_gpu/runtime/device.hpp"
 #include "ocl_common.hpp"
 
-#include <map>
-#include <string>
-#include <vector>
-#include <algorithm>
-
 namespace cldnn {
 namespace ocl {
 
@@ -20,7 +14,7 @@ struct ocl_device : public device {
 public:
     ocl_device(const cl::Device dev, const cl::Context& ctx, const cl::Platform& platform);
 
-    device_info get_info() const override { return _info; }
+    const device_info& get_info() const override { return _info; }
     memory_capabilities get_mem_caps() const override { return _mem_caps; }
 
     const cl::Device& get_device() const { return _device; }
diff --git a/src/plugins/intel_gpu/src/runtime/ocl/ocl_device_detector.cpp b/src/plugins/intel_gpu/src/runtime/ocl/ocl_device_detector.cpp
index 468bd7350c27db..77551c1743038a 100644
--- a/src/plugins/intel_gpu/src/runtime/ocl/ocl_device_detector.cpp
+++ b/src/plugins/intel_gpu/src/runtime/ocl/ocl_device_detector.cpp
@@ -3,13 +3,12 @@
 //
 
 #include "ocl_device_detector.hpp"
+#include "intel_gpu/runtime/debug_configuration.hpp"
 #include "ocl_device.hpp"
 #include "ocl_common.hpp"
 
 #include <string>
 #include <vector>
-#include <list>
-#include <utility>
 
 // NOTE: Due to buggy scope transition of warnings we need to disable warning in place of use/instantation
 //       of some types (even though we already disabled them in scope of definition of these types).
diff --git a/src/plugins/intel_gpu/tests/unit/module_tests/device_test.cpp b/src/plugins/intel_gpu/tests/unit/module_tests/device_test.cpp
index cfb9e833fb8e1d..b27275d0f03d99 100644
--- a/src/plugins/intel_gpu/tests/unit/module_tests/device_test.cpp
+++ b/src/plugins/intel_gpu/tests/unit/module_tests/device_test.cpp
@@ -21,7 +21,7 @@ struct dummy_device : public device {
         _info.device_id = static_cast<uint32_t>(device_id);
     }
 
-    device_info get_info() const override { return _info; }
+    const device_info& get_info() const override { return _info; }
     memory_capabilities get_mem_caps() const override { return _mem_caps; }
     bool is_same(const device::ptr other) override {
         return this == other.get();
diff --git a/src/plugins/intel_gpu/tests/unit/module_tests/weights_reorder_factory_test.cpp b/src/plugins/intel_gpu/tests/unit/module_tests/weights_reorder_factory_test.cpp
index cb2f1fc13d0047..bc4cffc17e193a 100644
--- a/src/plugins/intel_gpu/tests/unit/module_tests/weights_reorder_factory_test.cpp
+++ b/src/plugins/intel_gpu/tests/unit/module_tests/weights_reorder_factory_test.cpp
@@ -12,7 +12,7 @@
 
 #include "reorder_inst.h"
 #include "fully_connected_inst.h"
-#include "implementation_map.hpp"
+#include "impls/registry/implementation_map.hpp"
 #include "graph/impls/ocl/register.hpp"
 
 #include <memory>

From 55f62a0ea0ce1b6c0fe343370ad3da1077456513 Mon Sep 17 00:00:00 2001
From: Maciej Smyk <maciejx.smyk@intel.com>
Date: Wed, 7 Aug 2024 09:34:51 +0200
Subject: [PATCH 16/24] [DOCS] CMakeLists update for master (#25791)

Adjusted paths in the CMakeLists.txt file to contain new paths for code
snippets.
---
 .../snippets/{ => gpu}/compile_model_gpu.cpp  |  0
 .../snippets/{ => gpu}/compile_model_gpu.py   |  0
 .../snippets/{ => gpu}/custom_kernels_api.cpp |  0
 .../snippets/{ => gpu}/custom_kernels_api.py  |  0
 .../snippets/{ => gpu}/dynamic_batch.cpp      |  0
 .../snippets/{ => gpu}/dynamic_batch.py       |  0
 .../preprocessing_nv12_two_planes.py          |  0
 .../custom-gpu-operations.rst                 |  4 +-
 .../gpu-device.rst                            | 32 +++----
 .../remote-tensor-api-gpu-plugin.rst          | 94 +++++++++----------
 10 files changed, 65 insertions(+), 65 deletions(-)
 rename docs/articles_en/assets/snippets/{ => gpu}/compile_model_gpu.cpp (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/compile_model_gpu.py (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/custom_kernels_api.cpp (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/custom_kernels_api.py (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/dynamic_batch.cpp (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/dynamic_batch.py (100%)
 rename docs/articles_en/assets/snippets/{ => gpu}/preprocessing_nv12_two_planes.py (100%)

diff --git a/docs/articles_en/assets/snippets/compile_model_gpu.cpp b/docs/articles_en/assets/snippets/gpu/compile_model_gpu.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/compile_model_gpu.cpp
rename to docs/articles_en/assets/snippets/gpu/compile_model_gpu.cpp
diff --git a/docs/articles_en/assets/snippets/compile_model_gpu.py b/docs/articles_en/assets/snippets/gpu/compile_model_gpu.py
similarity index 100%
rename from docs/articles_en/assets/snippets/compile_model_gpu.py
rename to docs/articles_en/assets/snippets/gpu/compile_model_gpu.py
diff --git a/docs/articles_en/assets/snippets/custom_kernels_api.cpp b/docs/articles_en/assets/snippets/gpu/custom_kernels_api.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/custom_kernels_api.cpp
rename to docs/articles_en/assets/snippets/gpu/custom_kernels_api.cpp
diff --git a/docs/articles_en/assets/snippets/custom_kernels_api.py b/docs/articles_en/assets/snippets/gpu/custom_kernels_api.py
similarity index 100%
rename from docs/articles_en/assets/snippets/custom_kernels_api.py
rename to docs/articles_en/assets/snippets/gpu/custom_kernels_api.py
diff --git a/docs/articles_en/assets/snippets/dynamic_batch.cpp b/docs/articles_en/assets/snippets/gpu/dynamic_batch.cpp
similarity index 100%
rename from docs/articles_en/assets/snippets/dynamic_batch.cpp
rename to docs/articles_en/assets/snippets/gpu/dynamic_batch.cpp
diff --git a/docs/articles_en/assets/snippets/dynamic_batch.py b/docs/articles_en/assets/snippets/gpu/dynamic_batch.py
similarity index 100%
rename from docs/articles_en/assets/snippets/dynamic_batch.py
rename to docs/articles_en/assets/snippets/gpu/dynamic_batch.py
diff --git a/docs/articles_en/assets/snippets/preprocessing_nv12_two_planes.py b/docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes.py
similarity index 100%
rename from docs/articles_en/assets/snippets/preprocessing_nv12_two_planes.py
rename to docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes.py
diff --git a/docs/articles_en/documentation/openvino-extensibility/custom-gpu-operations.rst b/docs/articles_en/documentation/openvino-extensibility/custom-gpu-operations.rst
index 015c416ac5c258..97cf7314476076 100644
--- a/docs/articles_en/documentation/openvino-extensibility/custom-gpu-operations.rst
+++ b/docs/articles_en/documentation/openvino-extensibility/custom-gpu-operations.rst
@@ -30,14 +30,14 @@ There are two options for using the custom operation configuration file:
    .. tab-item:: Python
       :sync: py
 
-      .. doxygensnippet:: docs/articles_en/assets/snippets/custom_kernels_api.py
+      .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/custom_kernels_api.py
         :language: python
         :fragment: [part0]
 
    .. tab-item:: C++
       :sync: cpp
 
-      .. doxygensnippet:: docs/articles_en/assets/snippets/custom_kernels_api.cpp
+      .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/custom_kernels_api.cpp
         :language: cpp
         :fragment: [part0]
 
diff --git a/docs/articles_en/openvino-workflow/running-inference/inference-devices-and-modes/gpu-device.rst b/docs/articles_en/openvino-workflow/running-inference/inference-devices-and-modes/gpu-device.rst
index 1b9c5b89eff8bc..6104998c4beae8 100644
--- a/docs/articles_en/openvino-workflow/running-inference/inference-devices-and-modes/gpu-device.rst
+++ b/docs/articles_en/openvino-workflow/running-inference/inference-devices-and-modes/gpu-device.rst
@@ -59,14 +59,14 @@ Then, the device name can be passed to the ``ov::Core::compile_model()`` method,
          .. tab-item:: Python
             :sync: py
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/compile_model_gpu.py
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/compile_model_gpu.py
                :language: Python
                :fragment: compile_model_default_gpu
 
          .. tab-item:: C++
             :sync: cpp
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/compile_model_gpu.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/compile_model_gpu.cpp
                :language: cpp
                :fragment: compile_model_default_gpu
 
@@ -77,14 +77,14 @@ Then, the device name can be passed to the ``ov::Core::compile_model()`` method,
          .. tab-item:: Python
             :sync: py
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/compile_model_gpu.py
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/compile_model_gpu.py
                :language: Python
                :fragment: compile_model_gpu_with_id
 
          .. tab-item:: C++
             :sync: cpp
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/compile_model_gpu.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/compile_model_gpu.cpp
                :language: cpp
                :fragment: compile_model_gpu_with_id
 
@@ -95,14 +95,14 @@ Then, the device name can be passed to the ``ov::Core::compile_model()`` method,
          .. tab-item:: Python
             :sync: py
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/compile_model_gpu.py
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/compile_model_gpu.py
                :language: Python
                :fragment: compile_model_gpu_with_id_and_tile
 
          .. tab-item:: C++
             :sync: cpp
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/compile_model_gpu.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/compile_model_gpu.cpp
                :language: cpp
                :fragment: compile_model_gpu_with_id_and_tile
 
@@ -152,14 +152,14 @@ It is done by specifying ``AUTO:GPU.1,GPU.0`` as a target device, and adding the
    .. tab-item:: Python
       :sync: py
 
-      .. doxygensnippet:: docs/articles_en/assets/snippets/compile_model_gpu.py
+      .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/compile_model_gpu.py
          :language: Python
          :fragment: compile_model_auto
 
    .. tab-item:: C++
       :sync: cpp
 
-      .. doxygensnippet:: docs/articles_en/assets/snippets/compile_model_gpu.cpp
+      .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/compile_model_gpu.cpp
          :language: cpp
          :fragment: compile_model_auto
 
@@ -183,14 +183,14 @@ Alternatively, it can be enabled explicitly via the device notion, for example `
          .. tab-item:: Python
             :sync: py
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/compile_model_gpu.py
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/compile_model_gpu.py
                :language: Python
                :fragment: compile_model_batch_plugin
 
          .. tab-item:: C++
             :sync: cpp
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/compile_model_gpu.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/compile_model_gpu.cpp
                :language: cpp
                :fragment: compile_model_batch_plugin
 
@@ -201,14 +201,14 @@ Alternatively, it can be enabled explicitly via the device notion, for example `
          .. tab-item:: Python
             :sync: py
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/compile_model_gpu.py
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/compile_model_gpu.py
                :language: Python
                :fragment: compile_model_auto_batch
 
          .. tab-item:: C++
             :sync: cpp
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/compile_model_gpu.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/compile_model_gpu.cpp
                :language: cpp
                :fragment: compile_model_auto_batch
 
@@ -275,14 +275,14 @@ The code snippet below demonstrates examples of a bounded dynamic batch:
    .. tab-item:: Python
       :sync: py
 
-      .. doxygensnippet:: docs/articles_en/assets/snippets/dynamic_batch.py
+      .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/dynamic_batch.py
          :language: Python
          :fragment: dynamic_batch
 
    .. tab-item:: C++
       :sync: cpp
 
-      .. doxygensnippet:: docs/articles_en/assets/snippets/dynamic_batch.cpp
+      .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/dynamic_batch.cpp
          :language: cpp
          :fragment: dynamic_batch
 
@@ -351,14 +351,14 @@ The GPU plugin has the following additional preprocessing options:
    .. tab-item:: Python
       :sync: py
 
-      .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_two_planes.py
+      .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes.py
          :language: Python
          :fragment: init_preproc
 
    .. tab-item:: C++
       :sync: cpp
 
-      .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_two_planes.cpp
+      .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes.cpp
          :language: cpp
          :fragment: init_preproc
 
diff --git a/docs/articles_en/openvino-workflow/running-inference/inference-devices-and-modes/gpu-device/remote-tensor-api-gpu-plugin.rst b/docs/articles_en/openvino-workflow/running-inference/inference-devices-and-modes/gpu-device/remote-tensor-api-gpu-plugin.rst
index 9af801ae9861c2..f865c3b7813f5c 100644
--- a/docs/articles_en/openvino-workflow/running-inference/inference-devices-and-modes/gpu-device/remote-tensor-api-gpu-plugin.rst
+++ b/docs/articles_en/openvino-workflow/running-inference/inference-devices-and-modes/gpu-device/remote-tensor-api-gpu-plugin.rst
@@ -61,21 +61,21 @@ of ``ov::RemoteContext`` derived classes.
          .. tab-item:: Create from cl_context
             :sync: create-from-cl-context
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [context_from_cl_context]
 
          .. tab-item:: Create from cl_queue
             :sync: create-from-cl-queue
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [context_from_cl_queue]
 
          .. tab-item:: Create from ID3D11Device
             :sync: create-from-id3d11device
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [context_from_d3d_device]
 
@@ -87,21 +87,21 @@ of ``ov::RemoteContext`` derived classes.
          .. tab-item:: Create from cl_context
             :sync: create-from-cl-context
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [context_from_cl_context]
 
          .. tab-item:: Create from cl_queue
             :sync: create-from-cl-queue
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [context_from_cl_queue]
 
          .. tab-item:: Create from ID3D11Device
             :sync: create-from-id3d11device
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [context_from_d3d_device]
 
@@ -113,21 +113,21 @@ of ``ov::RemoteContext`` derived classes.
          .. tab-item:: Create from cl_context
             :sync: create-from-cl-context
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [context_from_cl_context]
 
          .. tab-item:: Create from cl_queue
             :sync: create-from-cl-queue
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [context_from_cl_queue]
 
          .. tab-item:: Create from VADisplay
             :sync: create-from-vadisplay
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [context_from_va_display]
 
@@ -139,21 +139,21 @@ of ``ov::RemoteContext`` derived classes.
          .. tab-item:: Create from cl_context
             :sync: create-from-cl-context
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [context_from_cl_context]
 
          .. tab-item:: Create from cl_queue
             :sync: create-from-cl-queue
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [context_from_cl_queue]
 
          .. tab-item:: Create from VADisplay
             :sync: create-from-vadisplay
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [context_from_va_display]
 
@@ -177,14 +177,14 @@ To request the current default context of the plugin, use one of the following m
          .. tab-item:: Get context from Core
             :sync: get-context-core
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [default_context_from_core]
 
          .. tab-item:: Get context from compiled model
             :sync: get-context-compiled-model
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [default_context_from_model]
 
@@ -196,14 +196,14 @@ To request the current default context of the plugin, use one of the following m
          .. tab-item:: Get context from Core
             :sync: get-context-core
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [default_context_from_core]
 
          .. tab-item:: Get context from compiled model
             :sync: get-context-compiled-model
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [default_context_from_model]
 
@@ -231,35 +231,35 @@ For more details, see the code snippets below:
          .. tab-item:: USM pointer
             :sync: usm-pointer
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [wrap_usm_pointer]
 
          .. tab-item:: cl_mem
             :sync: cl-mem
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [wrap_cl_mem]
 
          .. tab-item:: cl::Buffer
             :sync: buffer
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [wrap_cl_buffer]
 
          .. tab-item:: cl::Image2D
             :sync: image2D
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [wrap_cl_image]
 
          .. tab-item:: biplanar NV12 surface
             :sync: biplanar-nv12-surface
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [wrap_nv12_surface]
 
@@ -271,21 +271,21 @@ For more details, see the code snippets below:
          .. tab-item:: USM host memory
             :sync: usm-host-memory
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [allocate_usm_host]
 
          .. tab-item:: USM device memory
             :sync: usm-device-memory
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [allocate_usm_device]
 
          .. tab-item:: cl::Buffer
             :sync: buffer
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation.cpp
                :language: cpp
                :fragment: [allocate_cl_buffer]
 
@@ -299,35 +299,35 @@ For more details, see the code snippets below:
          .. tab-item:: USM pointer
             :sync: usm-pointer
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [wrap_usm_pointer]
 
          .. tab-item:: cl_mem
             :sync: cl-mem
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [wrap_cl_mem]
 
          .. tab-item:: cl::Buffer
             :sync: buffer
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
               :language: c
               :fragment: [wrap_cl_buffer]
 
          .. tab-item:: cl::Image2D
             :sync: image2D
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [wrap_cl_image]
 
          .. tab-item:: biplanar NV12 surface
             :sync: biplanar-nv12-surface
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [create_nv12_surface]
 
@@ -339,14 +339,14 @@ For more details, see the code snippets below:
          .. tab-item:: USM host memory
             :sync: usm-host-memory
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [allocate_usm_host]
 
          .. tab-item:: USM device memory
             :sync: usm-device-memory
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/remote_objects_creation_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/remote_objects_creation_c.cpp
                :language: c
                :fragment: [allocate_usm_device]
 
@@ -379,28 +379,28 @@ should be added before model compilation:
          .. tab-item:: C++
             :sync: cpp
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_two_planes.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes.cpp
                :language: cpp
                :fragment: [init_preproc]
 
          .. tab-item:: C
             :sync: c
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_two_planes_c.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes_c.cpp
                :language: c
                :fragment: [init_preproc]
 
    .. tab-item:: single-plane
       :sync: single-plane
 
-      .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_single_plane.cpp
+      .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_single_plane.cpp
          :language: cpp
          :fragment: [init_preproc]
 
    .. tab-item:: NV12 to Grey
       :sync: nv12-grey
 
-      .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_to_gray.cpp
+      .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_to_gray.cpp
          :language: cpp
          :fragment: [init_preproc]
 
@@ -424,28 +424,28 @@ inputs need to be set via the ``ov::InferRequest::set_tensors`` method with vect
                .. tab-item:: C++
                   :sync: cpp
 
-                  .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_two_planes.cpp
+                  .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes.cpp
                      :language: cpp
                      :fragment: [single_batch]
 
                .. tab-item:: C
                   :sync: cpp
 
-                  .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_two_planes_c.cpp
+                  .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes_c.cpp
                      :language: c
                      :fragment: [single_batch]
 
          .. tab-item:: single-plane
             :sync: single-plane
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_single_plane.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_single_plane.cpp
                :language: cpp
                :fragment: [single_batch]
 
          .. tab-item:: NV12 to Grey
             :sync: nv12-grey
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_to_gray.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_to_gray.cpp
                :language: cpp
                :fragment: [single_batch]
 
@@ -457,21 +457,21 @@ inputs need to be set via the ``ov::InferRequest::set_tensors`` method with vect
          .. tab-item:: two-plane
             :sync: two-plane
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_two_planes.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_two_planes.cpp
                :language: cpp
                :fragment: [batched_case]
 
          .. tab-item:: single-plane
             :sync: single-plane
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_single_plane.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_single_plane.cpp
                :language: cpp
                :fragment: [batched_case]
 
          .. tab-item:: NV12 to Grey
             :sync: nv12-grey
 
-            .. doxygensnippet:: docs/articles_en/assets/snippets/preprocessing_nv12_to_gray.cpp
+            .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/preprocessing_nv12_to_gray.cpp
                :language: cpp
                :fragment: [batched_case]
 
@@ -492,7 +492,7 @@ on waiting for the completion of inference. The pseudo-code may look as follows:
 
 .. dropdown:: Queue and context sharing example
 
-   .. doxygensnippet:: docs/articles_en/assets/snippets/queue_sharing.cpp
+   .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/queue_sharing.cpp
       :language: cpp
       :fragment: [queue_sharing]
 
@@ -533,13 +533,13 @@ To see pseudo-code of usage examples, refer to the sections below.
 
    This example uses the OpenCL context obtained from a compiled model object.
 
-   .. doxygensnippet:: docs/articles_en/assets/snippets/context_sharing.cpp
+   .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/context_sharing.cpp
       :language: cpp
       :fragment: [context_sharing_get_from_ov]
 
 .. dropdown:: Running GPU Plugin Inference within User-Supplied Shared Context
 
-   .. doxygensnippet:: docs/articles_en/assets/snippets/context_sharing.cpp
+   .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/context_sharing.cpp
       :language: cpp
       :fragment: [context_sharing_user_handle]
 
@@ -550,14 +550,14 @@ To see pseudo-code of usage examples, refer to the sections below.
       .. tab-item:: C++
          :sync: cpp
 
-         .. doxygensnippet:: docs/articles_en/assets/snippets/context_sharing_va.cpp
+         .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/context_sharing_va.cpp
             :language: cpp
             :fragment: [context_sharing_va]
 
       .. tab-item:: C
          :sync: c
 
-         .. doxygensnippet:: docs/articles_en/assets/snippets/context_sharing_va_c.cpp
+         .. doxygensnippet:: docs/articles_en/assets/snippets/gpu/context_sharing_va_c.cpp
             :language: c
             :fragment: [context_sharing_va]
 

From 322da1a57e084d2b6230e730ebb3d6cbfd7681bf Mon Sep 17 00:00:00 2001
From: Sebastian Golebiewski <sebastianx.golebiewski@intel.com>
Date: Wed, 7 Aug 2024 11:45:50 +0200
Subject: [PATCH 17/24] [DOCS] Update local distribution docs (#25948)

Updating diagrams and adding info on support for NPU. Addressing JIRA
ticket: 148996
---
 docs/articles_en/assets/images/deployment_full.svg        | 4 ++--
 docs/articles_en/assets/images/deployment_simplified.svg  | 4 ++--
 .../deployment-locally/local-distribution-libraries.rst   | 8 +++++---
 3 files changed, 9 insertions(+), 7 deletions(-)

diff --git a/docs/articles_en/assets/images/deployment_full.svg b/docs/articles_en/assets/images/deployment_full.svg
index 0e059f4b626a7e..e3b4e02a393c8e 100644
--- a/docs/articles_en/assets/images/deployment_full.svg
+++ b/docs/articles_en/assets/images/deployment_full.svg
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f4f556048b744609002b58ad550ddc1bca91fa9e04d496cdabb73187d1681b2
-size 59990
+oid sha256:a4739c6e6de67cc82e1fb06f463c542209ed589dfb844cc2348de25dccafcb68
+size 83675
diff --git a/docs/articles_en/assets/images/deployment_simplified.svg b/docs/articles_en/assets/images/deployment_simplified.svg
index c8b48412d576a1..735c557034dc55 100644
--- a/docs/articles_en/assets/images/deployment_simplified.svg
+++ b/docs/articles_en/assets/images/deployment_simplified.svg
@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68d5003431670cea03abc68eba89ffc9c566e08782ae6f5a80dd4a2a20766847
-size 21883
+oid sha256:2c85d8be8a526aef8e200cfef35ae08f86a46bf5366957f312620d36d3d5403a
+size 34874
diff --git a/docs/articles_en/openvino-workflow/deployment-locally/local-distribution-libraries.rst b/docs/articles_en/openvino-workflow/deployment-locally/local-distribution-libraries.rst
index 629b6646a7a80e..4d05172abac96b 100644
--- a/docs/articles_en/openvino-workflow/deployment-locally/local-distribution-libraries.rst
+++ b/docs/articles_en/openvino-workflow/deployment-locally/local-distribution-libraries.rst
@@ -41,9 +41,6 @@ to optimally saturate devices with computations.
 
 If your application is in C language, you need to additionally include the ``openvino_c`` library.
 
-The ``plugins.xml`` file with information about inference devices must also be taken as a support file for ``openvino``.
-
-
 Libraries for Pluggable Components
 ##################################
 
@@ -58,6 +55,7 @@ For each inference device, OpenVINO Runtime has its own plugin library:
 
 - ``openvino_intel_cpu_plugin`` for :doc:`Intel® CPU devices <../running-inference/inference-devices-and-modes/cpu-device>`
 - ``openvino_intel_gpu_plugin`` for :doc:`Intel® GPU devices <../running-inference/inference-devices-and-modes/gpu-device>`
+- ``openvino_intel_npu_plugin`` for :doc:`Intel® NPU devices <../running-inference/inference-devices-and-modes/npu-device>`
 - ``openvino_arm_cpu_plugin`` for :doc:`ARM CPU devices <../running-inference/inference-devices-and-modes/cpu-device>`
 
 Depending on which devices are used in the app, the corresponding libraries should be included in the distribution package.
@@ -80,6 +78,8 @@ Refer to the table below for details:
       |              | | cache.json            | | ``.\runtime\bin\intel64\Release\cache.json``   or   |
       |              | |                       | | ``.\runtime\bin\intel64\Debug\cache.json``          |
       +--------------+-------------------------+-------------------------------------------------------+
+      |     NPU      |            —            |                          —                            |
+      +--------------+-------------------------+-------------------------------------------------------+
       |  Arm® CPU    |            —            |                          —                            |
       +--------------+-------------------------+-------------------------------------------------------+
 
@@ -103,6 +103,8 @@ Refer to the table below for details:
       |     GPU      | | libOpenCL.so          | | ``/usr/lib/x86_64-linux-gnu/libOpenCL.so.1``        |
       |              | | cache.json            | | ``./runtime/lib/intel64/cache.json``                |
       +--------------+-------------------------+-------------------------------------------------------+
+      |     NPU      |            —            |                          —                            |
+      +--------------+-------------------------+-------------------------------------------------------+
 
    .. tab-item:: macOS arm64
       :sync: macos-arm-64

From 1cd7ac12bb28a01098c5799a6e1f725474e23214 Mon Sep 17 00:00:00 2001
From: Alexandra Sidorova <alexandra.sidorova@intel.com>
Date: Wed, 7 Aug 2024 13:49:30 +0400
Subject: [PATCH 18/24] [TPP][GHA] Renamed workflow (#25946)

### Details:
 - *Renamed GHA workflow for Snippets with TPP validation*

### Tickets:
 - *N/A*
---
 .../{linux_cpu_dev.yml => dev_cpu_linux_snippets_libxsmm.yml} | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)
 rename .github/workflows/{linux_cpu_dev.yml => dev_cpu_linux_snippets_libxsmm.yml} (98%)

diff --git a/.github/workflows/linux_cpu_dev.yml b/.github/workflows/dev_cpu_linux_snippets_libxsmm.yml
similarity index 98%
rename from .github/workflows/linux_cpu_dev.yml
rename to .github/workflows/dev_cpu_linux_snippets_libxsmm.yml
index 447a8c52968044..a8bac1b208044c 100644
--- a/.github/workflows/linux_cpu_dev.yml
+++ b/.github/workflows/dev_cpu_linux_snippets_libxsmm.yml
@@ -1,9 +1,9 @@
-name: Linux developer workflow for CPU plugin (Ubuntu 20.04)
+name: Linux CPU Plugin Snippets with LIBXSMM (Ubuntu 20.04)
 on:
   workflow_dispatch:
   pull_request:
     paths:
-      - '.github/workflows/linux_cpu_dev.yml'
+      - '.github/workflows/dev_cpu_linux_snippets_libxsmm.yml'
       - 'src/common/snippets/**'
       - 'src/plugins/intel_cpu/src/nodes/subgraph.cpp'
       - 'src/plugins/intel_cpu/src/nodes/subgraph.h'

From 5058a882c5e86f4d564f31787a994544d2e868a1 Mon Sep 17 00:00:00 2001
From: Wilson Seok <wilson.seok@intel.com>
Date: Wed, 7 Aug 2024 02:59:42 -0700
Subject: [PATCH 19/24] [GPU] Avoid to select b_fs_yx_fsv2 in onednn
 find_data_format because the format does not have valid format_tag (#25784)

### Details:
- Avoid to select b_fs_yx_fsv2 in onednn find_data_format because onednn
did not declare such format_tag

### Tickets:
 - 148068
---
 .../graph/impls/onednn/convolution_onednn.hpp |  7 +++
 .../intel_gpu/src/graph/layout_optimizer.cpp  |  7 +++
 .../passes/select_preferred_formats_test.cpp  | 47 +++++++++++++++++++
 3 files changed, 61 insertions(+)

diff --git a/src/plugins/intel_gpu/src/graph/impls/onednn/convolution_onednn.hpp b/src/plugins/intel_gpu/src/graph/impls/onednn/convolution_onednn.hpp
index 8fed54a135d6eb..b01ed90ec95a0e 100644
--- a/src/plugins/intel_gpu/src/graph/impls/onednn/convolution_onednn.hpp
+++ b/src/plugins/intel_gpu/src/graph/impls/onednn/convolution_onednn.hpp
@@ -47,6 +47,13 @@ static std::shared_ptr<dnnl::convolution_forward::primitive_desc> get_convolutio
     auto weights_md = onednn::layout_to_memory_desc(weights_layout, dnnl::memory::format_tag::any);
     auto output_md = onednn::layout_to_memory_desc(output_layout, tag_in_out);
 
+    OPENVINO_ASSERT(!input_md.is_zero(),
+                    "[GPU] The input memory descriptor of onednn convolution should not have zero dim.");
+    OPENVINO_ASSERT(!weights_md.is_zero(),
+                    "[GPU] The weights memory descriptor of onednn convolution should not have zero dim.");
+    OPENVINO_ASSERT(!output_md.is_zero(),
+                    "[GPU] The output memory descriptor of onednn convolution should not have zero dim.");
+
     // adjust_conv_dilation_pad(dilation, stride, pad_l, pad_r, input_md, output_md, weights_md, grouped_weights);
     for (size_t i = 0; i < dilation.size(); i++) {
         dilation[i]--;
diff --git a/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp b/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp
index 7a10ca4df9f74b..864aded889b54c 100644
--- a/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp
+++ b/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp
@@ -1948,6 +1948,10 @@ void layout_optimizer::select_preferred_formats_for_onednn(program_node& node, d
                 src_fmt = onednn::find_data_format(prim_desc.dst_desc());
             }
 
+            // WA: Avoid b_fs_yx_fsv2 because Onednn tag aBcd2b is not declared.
+            if (src_fmt == format::b_fs_yx_fsv2)
+                src_fmt = format::byxf;
+
             // WA: shallow convolution needs to set input format by bfyx.
             //     onednn recommended byxf for input format. It will insert reorder before shallow conv.
             if (node.is_type<convolution>() && node.get_input_layouts()[0].feature() == 3) {
@@ -1980,6 +1984,9 @@ void layout_optimizer::select_preferred_formats_for_onednn(program_node& node, d
             node.set_preferred_input_fmt(idx, src_fmt);
 
             auto dst_fmt = onednn::find_data_format(prim_desc.dst_desc());
+            // WA: Avoid b_fs_yx_fsv2 because Onednn tag aBcd2b is not declared.
+            if (dst_fmt == format::b_fs_yx_fsv2)
+                dst_fmt = format::byxf;
             // Errata: Best impl for shallow input conv with zero-point ops is ocl:xe_lp.
             if (node.is_type<convolution>() && src_fmt == format::bfyx) {
                 auto& conv = node.as<convolution>();
diff --git a/src/plugins/intel_gpu/tests/unit/passes/select_preferred_formats_test.cpp b/src/plugins/intel_gpu/tests/unit/passes/select_preferred_formats_test.cpp
index 2def3c9b978137..81ee021e86add8 100644
--- a/src/plugins/intel_gpu/tests/unit/passes/select_preferred_formats_test.cpp
+++ b/src/plugins/intel_gpu/tests/unit/passes/select_preferred_formats_test.cpp
@@ -66,3 +66,50 @@ TEST(test_select_preferred_formats, setting_target_conv_format) {
         }
     }
 }
+
+TEST(test_select_preferred_formats, fsv2_fallback_to_byxf) {
+    auto& engine = get_test_engine();
+    auto input = engine.allocate_memory({ data_types::f32, format::bfyx, { 1, 2, 96, 3002 } });
+    auto weights = engine.allocate_memory({ data_types::f16, format::bfzyx, { 2, 32, 3, 3, 1 } });
+
+    // find_data_format() returns b_fs_yx_fsv2 for convolution input in the below topology.
+    // The b_fs_yx_fsv2 should fallback to byxf in current WA.
+    topology topology;
+    topology.add(data("weights", weights));
+    topology.add(input_layout("input", input->get_layout()));
+    topology.add(reorder("reorder", input_info("input"), format::bfyx, data_types::f16));
+    topology.add(convolution("conv1", input_info("reorder"), "weights", "", 2, {1, 1}, {1, 1}, {2, 1}, {0, 1}, true));
+
+    ExecutionConfig config = get_test_default_config(engine);
+    config.set_property(ov::intel_gpu::allow_new_shape_infer(true));
+    ov::intel_gpu::ImplementationDesc impl = { format::b_fs_yx_fsv16, std::string(""), impl_types::onednn };
+    config.set_property(ov::intel_gpu::force_implementations(ov::intel_gpu::ImplForcingMap{ {"conv1", impl} }));
+
+    layout_optimizer lo(true);
+    auto prog = program::build_program(engine, topology, config, false, true);
+
+    // It initializes output_layout.
+    // It's necessary because this test runs select_preferred_formats pass alone.
+    prog->get_node("conv1").get_output_layouts(false);
+    program_wrapper::apply_opt_pass<select_preferred_formats>(*prog, lo);
+
+    ASSERT_NE(prog, nullptr);
+
+    auto itr = prog->get_processing_order().begin();
+    while (itr != prog->get_processing_order().end()) {
+        auto node_ptr = *itr++;
+        if (!node_ptr->is_type<convolution>())
+            continue;
+
+        auto& node = node_ptr->as<convolution>();
+        auto input_fmt = node.get_preferred_input_fmt(0);
+        auto output_fmt = node.get_preferred_output_fmt(0);
+        if (engine.get_device_info().supports_immad) {
+            ASSERT_EQ(input_fmt, format::byxf);
+            ASSERT_EQ(output_fmt, format::b_fs_yx_fsv16);
+        } else {
+            ASSERT_EQ(input_fmt, format::any);
+            ASSERT_EQ(output_fmt, format::any);
+        }
+    }
+}
\ No newline at end of file

From 2080aad86da2a50044332467fbe0d3d8d43a78d8 Mon Sep 17 00:00:00 2001
From: Alexandra Sidorova <alexandra.sidorova@intel.com>
Date: Wed, 7 Aug 2024 14:19:35 +0400
Subject: [PATCH 20/24] [Snippets][CPU] Added Kernel Executor table caching
 with binary code (#25638)

### Details:
- *The Kernel Executor table maps on Expression execution numbers
instead of Expressions to avoid dependency between `LinearIR` and binary
code*
- *Added Kernel Executor table to `SubgraphCodeGenerator` to be cached
with binary code*
 - *Added Subgraph caching test*

### Tickets:
 - *N/A*

 ### Prerequisites:
- [x] https://github.com/openvinotoolkit/openvino/pull/25623
- [x] https://github.com/openvinotoolkit/openvino/pull/25378
---
 .../snippets/include/snippets/generator.hpp   |   4 +-
 .../snippets/kernel_executor_table.hpp        |  42 +++---
 .../include/snippets/lowered/linear_ir.hpp    |   1 +
 .../snippets/include/snippets/op/subgraph.hpp |   1 +
 .../include/snippets/runtime_configurator.hpp |  26 ++--
 src/common/snippets/src/generator.cpp         |   2 +
 .../snippets/src/kernel_executor_table.cpp    |  12 +-
 src/common/snippets/src/op/subgraph.cpp       |  15 +--
 .../snippets/src/runtime_configurator.cpp     |  21 +--
 .../snippets/cpu_runtime_configurator.cpp     |   6 +-
 .../snippets/cpu_runtime_configurator.hpp     |   6 +-
 .../snippets/x64/kernel_executors/brgemm.cpp  |   2 +-
 .../snippets/x64/kernel_executors/brgemm.hpp  |   2 +-
 src/plugins/intel_cpu/src/nodes/subgraph.cpp  |  33 ++++-
 .../src/x64/subgraph_caching.cpp              | 125 ++++++++++++++++++
 15 files changed, 227 insertions(+), 71 deletions(-)
 create mode 100644 src/plugins/intel_cpu/tests/functional/custom/subgraph_tests/src/x64/subgraph_caching.cpp

diff --git a/src/common/snippets/include/snippets/generator.hpp b/src/common/snippets/include/snippets/generator.hpp
index a3d7143340f44c..b05da86fc3515d 100644
--- a/src/common/snippets/include/snippets/generator.hpp
+++ b/src/common/snippets/include/snippets/generator.hpp
@@ -11,6 +11,7 @@
 #include "snippets_isa.hpp"
 
 #include "snippets/lowered/linear_ir.hpp"
+#include "snippets/kernel_executor_table.hpp"
 #include "snippets/shape_types.hpp"
 #include "target_machine.hpp"
 
@@ -32,7 +33,8 @@ class LoweringResult {
     std::vector<std::shared_ptr<Emitter>> m_saved_emitters{};
 
 public:
-    std::shared_ptr<CompiledSnippet> compiled_snippet = nullptr;
+    CompiledSnippetPtr compiled_snippet = nullptr;
+    KernelExecutorTablePtr kernel_executor_table = nullptr;
 };
 
 /**
diff --git a/src/common/snippets/include/snippets/kernel_executor_table.hpp b/src/common/snippets/include/snippets/kernel_executor_table.hpp
index af797e4c80422a..2d4b1185ffc5d7 100644
--- a/src/common/snippets/include/snippets/kernel_executor_table.hpp
+++ b/src/common/snippets/include/snippets/kernel_executor_table.hpp
@@ -43,7 +43,7 @@ class KernelExecutorBase {
     * @brief Update current kernel config in accordance with the passed expression. Corresponding kernel is recompiled if necessary.
      * This method should be called to update KernelExecutor based on runtime info (e.g. shapes) available through expression ptr
     */
-    virtual void update_by_expression(const lowered::ExpressionPtr& expr, const lowered::LinearIRPtr& linear_ir) = 0;
+    virtual void update_by_expression(const lowered::ExpressionPtr& expr, const lowered::LinearIRCPtr& linear_ir) = 0;
     /**
     * @brief Replace current kernel config with the provided value. Corresponding kernel is recompiled if necessary.
      * This method should be called to restore a saved state of the executor, that was configured using update_by_expression().
@@ -70,7 +70,7 @@ class KernelExecutor : public KernelExecutorBase {
     explicit KernelExecutor(Conf c) : KernelExecutorBase(), m_config{std::move(c)} {}
 
     // Note: override when final is redundant, but needed to avoid warnings on some compilers
-    void update_by_expression(const lowered::ExpressionPtr& expr, const lowered::LinearIRPtr& linear_ir) override final { // NOLINT
+    void update_by_expression(const lowered::ExpressionPtr& expr, const lowered::LinearIRCPtr& linear_ir) override final { // NOLINT
         update_config(expr, linear_ir, m_config);
         OPENVINO_ASSERT(m_config.is_completed(), "Failed to update kernel config in update_by_expression");
         update_kernel(m_config, m_kernel);
@@ -103,7 +103,7 @@ class KernelExecutor : public KernelExecutorBase {
 
 protected:
     /*** Updates stored kernel config based on runtime info from expression (e.g. new input shapes). */
-    virtual void update_config(const lowered::ExpressionPtr& expr, const lowered::LinearIRPtr& linear_ir, Conf& config) const = 0;
+    virtual void update_config(const lowered::ExpressionPtr& expr, const lowered::LinearIRCPtr& linear_ir, Conf& config) const = 0;
     /*** Updates stored kernel in accordance with the passed config. Recompilation of the kernel is
      * performed if necessary. */
     virtual void update_kernel(const Conf& c, std::shared_ptr<KernelType>& kernel) const = 0;
@@ -122,17 +122,26 @@ class KernelExecutorTable {
             typename std::enable_if<std::is_base_of<KernelExecutorBase, T>::value, bool>::type = true>
     std::shared_ptr<T> register_kernel(const lowered::ExpressionPtr& expr, C... args) {
         const auto& instance = std::make_shared<T>(args...);
-        OPENVINO_ASSERT(m_table.insert({expr, instance}).second, "This expression already has an alterable kernel");
+        OPENVINO_ASSERT(m_table.insert({expr->get_exec_num(), instance}).second, "This expression execution number already has an alterable kernel");
         return instance;
     }
-   const std::shared_ptr<KernelExecutorBase>& get_kernel_executor(const lowered::ExpressionPtr& expr) const {
-        OPENVINO_ASSERT(m_table.count(expr), "This expression doesn't have a registered kernel executor");
-        return m_table.at(expr);
+
+    const std::shared_ptr<KernelExecutorBase>& get_kernel_executor(const lowered::ExpressionPtr& expr) const {
+        return get_kernel_executor(expr->get_exec_num());
+    }
+    const std::shared_ptr<KernelExecutorBase>& get_kernel_executor(double expr_exec_num) const {
+        OPENVINO_ASSERT(m_table.count(expr_exec_num), "This expression execution number doesn't have a registered kernel executor");
+        return m_table.at(expr_exec_num);
     }
+
     /*** Updates every registered KernelExecutor in accordance with the corresponding expression */
-    void update_state(const lowered::LinearIRPtr& linear_ir) const {
-        for (const auto& record : m_table)
-            record.second->update_by_expression(record.first, linear_ir);
+    void update_state(const lowered::LinearIRCPtr& linear_ir) const {
+        for (const auto& expr : *linear_ir) {
+            const auto& found = m_table.find(expr->get_exec_num());
+            if (found != m_table.end()) {
+                found->second->update_by_expression(expr, linear_ir);
+            }
+        }
     }
 
     /*** Returns lambda function that contains current state of the table, and restores this state when called  */
@@ -141,19 +150,12 @@ class KernelExecutorTable {
         return [=]() { reset_state(current_state); };
     }
 
-    /**
-    * @brief Replace originally registered ExpressionPtr with a new value.
-     * Note that code emission is performed on a copy of LIR, so all expression pointers visible from emitters won't
-     * be accessible from RuntimeConfigurator. In order to replace these cloned ExpressionPtrs with the original ones,
-     * we need to call this method.
-    */
-    void replace_key_expression(const lowered::ExpressionPtr& from, const lowered::ExpressionPtr& to);
-
     virtual ~KernelExecutorTable() = default;
 
 protected:
-    std::unordered_map<lowered::ExpressionPtr, std::shared_ptr<KernelExecutorBase>> m_table{};
-    typedef std::vector<std::pair<lowered::ExpressionPtr, std::shared_ptr<const KernelExecutorBase::GenericConfig>>> ExecTableState;
+    std::unordered_map<double, std::shared_ptr<KernelExecutorBase>> m_table {};
+
+    typedef std::vector<std::pair<double, std::shared_ptr<const KernelExecutorBase::GenericConfig>>> ExecTableState;
 
     /*** Restore the table state previously obtained by get_state() */
     void reset_state(const ExecTableState& state);
diff --git a/src/common/snippets/include/snippets/lowered/linear_ir.hpp b/src/common/snippets/include/snippets/lowered/linear_ir.hpp
index f2e45f8af68e17..55afd2c9ccd7ab 100644
--- a/src/common/snippets/include/snippets/lowered/linear_ir.hpp
+++ b/src/common/snippets/include/snippets/lowered/linear_ir.hpp
@@ -284,6 +284,7 @@ class LinearIR {
     size_t m_static_buffer_scratchpad_size = 0;
 };
 using LinearIRPtr = std::shared_ptr<LinearIR>;
+using LinearIRCPtr = std::shared_ptr<const LinearIR>;
 
 template<typename iterator>
 iterator LinearIR::find(iterator begin, iterator end, const ExpressionPtr& target) const {
diff --git a/src/common/snippets/include/snippets/op/subgraph.hpp b/src/common/snippets/include/snippets/op/subgraph.hpp
index 7837625f6e3e3c..84b66ce4d5306c 100644
--- a/src/common/snippets/include/snippets/op/subgraph.hpp
+++ b/src/common/snippets/include/snippets/op/subgraph.hpp
@@ -116,6 +116,7 @@ class Subgraph : public ov::op::util::SubGraphOp {
 
     std::shared_ptr<Subgraph> clone() const;
 
+    const std::shared_ptr<RuntimeConfigurator>& get_runtime_configurator() const;
     const std::shared_ptr<RuntimeConfig>& update_runtime_config() const;
 
     static auto wrap_node_as_subgraph(const std::shared_ptr<ov::Node>& node) -> std::shared_ptr<Subgraph>;
diff --git a/src/common/snippets/include/snippets/runtime_configurator.hpp b/src/common/snippets/include/snippets/runtime_configurator.hpp
index 058eca59716d1b..a0c7d8336c5cd1 100644
--- a/src/common/snippets/include/snippets/runtime_configurator.hpp
+++ b/src/common/snippets/include/snippets/runtime_configurator.hpp
@@ -61,28 +61,36 @@ class RuntimeConfigurator {
      * @param linear_ir LinearIR
      * @return updated config
      */
-    const std::shared_ptr<RuntimeConfig>& get_updated_config(const lowered::LinearIRPtr& linear_ir);
-    /*** Returns pointer to KernelExecutorTable owned by the config */
+    const std::shared_ptr<RuntimeConfig>& get_updated_config(const lowered::LinearIRCPtr& linear_ir);
+    /**
+     * @brief Returns pointer to KernelExecutorTable owned by the config
+     * @return updated KernelExecutorTable
+     */
     const std::shared_ptr<KernelExecutorTable>& get_kernel_executor_table() const { return m_config->kernel_executor_table; }
+    /**
+     * @brief Set new KernelExecutorTable to the config
+     * @param table new KernelExecutorTable
+     */
+    void set_kernel_executor_table(std::shared_ptr<KernelExecutorTable> table) const;
 
 protected:
     /**
      * @brief Update RuntimeConfig based on LinearIR
      * @param linear_ir LinearIR
      */
-    virtual void update(const lowered::LinearIRPtr& linear_ir);
+    virtual void update(const lowered::LinearIRCPtr& linear_ir);
     /**
      * @brief Allocate and intialize fields in RuntimeConfig and RuntimeConfigurator
      * @param linear_ir LinearIR
      */
-    virtual void initialization(const lowered::LinearIRPtr& linear_ir);
+    virtual void initialization(const lowered::LinearIRCPtr& linear_ir);
 
     /**
      * @brief Initializes input and data information of LinearIR:
      *        descriptors (that contains shapes and layouts) and data_sizes
      * @param linear_ir LinearIR
      */
-    void init_data_info(const lowered::LinearIRPtr& linear_ir);
+    void init_data_info(const lowered::LinearIRCPtr& linear_ir);
     /**
      * @brief Initializes information of buffers:
      *        - static buffer_scratchpad_size
@@ -90,23 +98,23 @@ class RuntimeConfigurator {
      *        - clusters with dynamic buffers (`m_dynamic_buffer_clusters`) for the quick access in `update()`
      * @param linear_ir LinearIR
      */
-    void init_buffer_info(const lowered::LinearIRPtr& linear_ir);
+    void init_buffer_info(const lowered::LinearIRCPtr& linear_ir);
     /**
      * @brief Initializes tensor rank of config
      * @param linear_ir LinearIR
      */
-    virtual void init_tensor_rank(const lowered::LinearIRPtr& linear_ir) const;
+    virtual void init_tensor_rank(const lowered::LinearIRCPtr& linear_ir) const;
     /**
      * @brief Update Loop informations in LinearIR: Unified and ExpandedLoopInfo
      * @param linear_ir LinearIR
      */
-    void update_loop_info(const lowered::LinearIRPtr& linear_ir) const;
+    void update_loop_info(const lowered::LinearIRCPtr& linear_ir) const;
     /**
      * @brief Update Buffer scratchpad size and offsets if needed
      *        Note: `update_loop_info` must be called before
      * @param linear_ir LinearIR
      */
-    void update_buffer_scratchpad_size(const lowered::LinearIRPtr& linear_ir) const;
+    void update_buffer_scratchpad_size(const lowered::LinearIRCPtr& linear_ir) const;
     /**
      * @brief Calculate data offsets of LinearIR and update these values in RuntimeConfig
      */
diff --git a/src/common/snippets/src/generator.cpp b/src/common/snippets/src/generator.cpp
index 29d9e066b153af..c01685e6531eb6 100644
--- a/src/common/snippets/src/generator.cpp
+++ b/src/common/snippets/src/generator.cpp
@@ -5,6 +5,7 @@
 #include "snippets/generator.hpp"
 
 #include "snippets/itt.hpp"
+#include "snippets/runtime_configurator.hpp"
 #include "snippets/lowered/linear_ir.hpp"
 #include "snippets/lowered/expression.hpp"
 #include "snippets/op/kernel.hpp"
@@ -46,6 +47,7 @@ LoweringResult Generator::generate(lowered::LinearIR& linear_ir, const void* com
             result.m_saved_emitters.emplace_back(emitter);
     }
     result.compiled_snippet = target->get_snippet();
+    result.kernel_executor_table = target->get_runtime_configurator()->get_kernel_executor_table();
 
     return result;
 }
diff --git a/src/common/snippets/src/kernel_executor_table.cpp b/src/common/snippets/src/kernel_executor_table.cpp
index 964ed736f13dd0..9b43c901f55edb 100644
--- a/src/common/snippets/src/kernel_executor_table.cpp
+++ b/src/common/snippets/src/kernel_executor_table.cpp
@@ -7,21 +7,13 @@
 namespace ov {
 namespace snippets {
 
-void KernelExecutorTable::replace_key_expression(const snippets::lowered::ExpressionPtr& from, const snippets::lowered::ExpressionPtr& to) {
-    const auto& found = m_table.find(from);
-    if (found != m_table.end()) {
-        OPENVINO_ASSERT(m_table.count(to) == 0, "Attempt to replace a value that is already in the KernelExecutorTable");
-        m_table.insert({to, found->second});
-        m_table.erase(found);
-    }
-}
-
 void KernelExecutorTable::reset_state(const ExecTableState& state) {
     OPENVINO_ASSERT(state.size() == m_table.size(), "Invalid state in restore_state: size mismatch");
     auto state_it = state.begin();
     for (const auto& table_record : m_table) {
         const auto& state_record = *state_it++;
-        OPENVINO_ASSERT(table_record.first == state_record.first, "Invalid state in restore_state: expressions mismatch");
+        OPENVINO_ASSERT(table_record.first == state_record.first,
+                        "Invalid state in restore_state: expression execution numbers mismatched");
         table_record.second->update_by_config(*state_record.second);
     }
 }
diff --git a/src/common/snippets/src/op/subgraph.cpp b/src/common/snippets/src/op/subgraph.cpp
index 4ede0b58a66cf0..55fd4acb2fa315 100644
--- a/src/common/snippets/src/op/subgraph.cpp
+++ b/src/common/snippets/src/op/subgraph.cpp
@@ -544,22 +544,21 @@ snippets::Schedule Subgraph::generate(const void* compile_params) const {
     }
 
     auto lowering_result = m_generator->generate(linear_ir, compile_params);
-
-    // Note: Since the code emission is performed on a copy of LIR, but RuntimeConfigurator works with the initial instance,
-    //  we need to replace cloned expression pointers to original ones in the KernelExecutorTable. Ticket: 129772
-    const auto& exec_table = m_generator->get_target_machine()->get_runtime_configurator()->get_kernel_executor_table();
-    for (const auto& expr : *m_linear_ir)
-        exec_table->replace_key_expression(expression_map.at(expr.get()), expr);
     // Some kernel executors might've been registered during code emission.
     //  We need to update them, so appropriate kernels will be compiled.
+    const auto& exec_table = get_runtime_configurator()->get_kernel_executor_table();
     exec_table->update_state(m_linear_ir);
     return {std::move(lowering_result)};
 }
 
-const std::shared_ptr<RuntimeConfig>& Subgraph::update_runtime_config() const {
+const std::shared_ptr<RuntimeConfigurator>& Subgraph::get_runtime_configurator() const {
     OPENVINO_ASSERT(m_generator, "Generator has not been inited!");
+    return m_generator->get_target_machine()->get_runtime_configurator();
+}
+
+const std::shared_ptr<RuntimeConfig>& Subgraph::update_runtime_config() const {
     OPENVINO_ASSERT(m_linear_ir, "LoweredLinearIR has not been inited!");
-    return m_generator->get_target_machine()->get_runtime_configurator()->get_updated_config(m_linear_ir);
+    return get_runtime_configurator()->get_updated_config(m_linear_ir);
 }
 
 void Subgraph::print() const {
diff --git a/src/common/snippets/src/runtime_configurator.cpp b/src/common/snippets/src/runtime_configurator.cpp
index ec1db44f074766..062b3a2d86fbb2 100644
--- a/src/common/snippets/src/runtime_configurator.cpp
+++ b/src/common/snippets/src/runtime_configurator.cpp
@@ -35,7 +35,7 @@ RuntimeConfigurator::RuntimeConfigurator(std::shared_ptr<RuntimeConfig> c) :
     OPENVINO_ASSERT(m_config, "Runtime config is nullptr!");
 }
 
-const std::shared_ptr<RuntimeConfig>& RuntimeConfigurator::get_updated_config(const lowered::LinearIRPtr& linear_ir) {
+const std::shared_ptr<RuntimeConfig>& RuntimeConfigurator::get_updated_config(const lowered::LinearIRCPtr& linear_ir) {
     // First initialization
     if (m_io_num == 0)
         initialization(linear_ir);
@@ -44,7 +44,7 @@ const std::shared_ptr<RuntimeConfig>& RuntimeConfigurator::get_updated_config(co
     return m_config;
 }
 
-void RuntimeConfigurator::initialization(const lowered::LinearIRPtr& linear_ir) {
+void RuntimeConfigurator::initialization(const lowered::LinearIRCPtr& linear_ir) {
     init_data_info(linear_ir);
     init_tensor_rank(linear_ir);
     init_buffer_info(linear_ir);
@@ -55,7 +55,7 @@ void RuntimeConfigurator::initialization(const lowered::LinearIRPtr& linear_ir)
     m_config->tile_rank = linear_ir->get_config().m_loop_depth;
 }
 
-void RuntimeConfigurator::update(const lowered::LinearIRPtr& linear_ir) {
+void RuntimeConfigurator::update(const lowered::LinearIRCPtr& linear_ir) {
     if (linear_ir->is_dynamic()) {
         update_loop_info(linear_ir);
         update_buffer_scratchpad_size(linear_ir);
@@ -67,11 +67,11 @@ void RuntimeConfigurator::update(const lowered::LinearIRPtr& linear_ir) {
     update_latest_shapes();
 }
 
-void RuntimeConfigurator::init_tensor_rank(const lowered::LinearIRPtr& linear_ir) const {
+void RuntimeConfigurator::init_tensor_rank(const lowered::LinearIRCPtr& linear_ir) const {
     m_config->tensor_rank = linear_ir->get_master_shape().size();
 }
 
-void RuntimeConfigurator::init_data_info(const lowered::LinearIRPtr& linear_ir) {
+void RuntimeConfigurator::init_data_info(const lowered::LinearIRCPtr& linear_ir) {
     const auto& parameters = linear_ir->get_parameters();
     const auto& results = linear_ir->get_results();
     m_in_num = parameters.size();
@@ -113,7 +113,7 @@ void RuntimeConfigurator::init_data_info(const lowered::LinearIRPtr& linear_ir)
     }
 }
 
-void RuntimeConfigurator::init_buffer_info(const lowered::LinearIRPtr& linear_ir) {
+void RuntimeConfigurator::init_buffer_info(const lowered::LinearIRCPtr& linear_ir) {
     std::map<size_t, std::set<lowered::ExpressionPtr>> dynamic_buffer_clusters, static_buffer_clusters;
 
     // All needed checks are in Validate pass
@@ -143,7 +143,7 @@ void RuntimeConfigurator::init_buffer_info(const lowered::LinearIRPtr& linear_ir
     m_dynamic_buffer_clusters = std::move(dynamic_buffer_clusters);
 }
 
-void RuntimeConfigurator::update_loop_info(const lowered::LinearIRPtr& linear_ir) const {
+void RuntimeConfigurator::update_loop_info(const lowered::LinearIRCPtr& linear_ir) const {
     // Initialized UnifiedLoopInfo
     struct CurrentUnifiedLoopInfo {
         size_t current_work_amount = 0;
@@ -202,7 +202,7 @@ void RuntimeConfigurator::update_loop_info(const lowered::LinearIRPtr& linear_ir
     }
 }
 
-void RuntimeConfigurator::update_buffer_scratchpad_size(const lowered::LinearIRPtr& linear_ir) const {
+void RuntimeConfigurator::update_buffer_scratchpad_size(const lowered::LinearIRCPtr& linear_ir) const {
     const auto& loop_manager = linear_ir->get_loop_manager();
     m_config->buffer_scratchpad_size = linear_ir->get_static_buffer_scratchpad_size();
 
@@ -278,5 +278,10 @@ void RuntimeConfigurator::update_latest_shapes() {
     }
 }
 
+void RuntimeConfigurator::set_kernel_executor_table(std::shared_ptr<KernelExecutorTable> table) const {
+    OPENVINO_ASSERT(table, "Failed to update Kernel Executo Table: passed table is missed");
+    m_config->kernel_executor_table = std::move(table);
+}
+
 } // namespace snippets
 } // namespace ov
diff --git a/src/plugins/intel_cpu/src/emitters/snippets/cpu_runtime_configurator.cpp b/src/plugins/intel_cpu/src/emitters/snippets/cpu_runtime_configurator.cpp
index 925a6d28697d41..1387992792e0a0 100644
--- a/src/plugins/intel_cpu/src/emitters/snippets/cpu_runtime_configurator.cpp
+++ b/src/plugins/intel_cpu/src/emitters/snippets/cpu_runtime_configurator.cpp
@@ -14,7 +14,7 @@ namespace intel_cpu {
 CPURuntimeConfigurator::CPURuntimeConfigurator() : ov::snippets::RuntimeConfigurator(std::make_shared<CPURuntimeConfig>()) {
 }
 
-void CPURuntimeConfigurator::update(const ov::snippets::lowered::LinearIRPtr& linear_ir) {
+void CPURuntimeConfigurator::update(const ov::snippets::lowered::LinearIRCPtr& linear_ir) {
     if (linear_ir->is_dynamic()) {
         update_loop_info(linear_ir);
         update_loop_args(linear_ir);
@@ -30,11 +30,11 @@ void CPURuntimeConfigurator::update(const ov::snippets::lowered::LinearIRPtr& li
     update_latest_shapes();
 }
 
-void CPURuntimeConfigurator::init_tensor_rank(const ov::snippets::lowered::LinearIRPtr& linear_ir) const {
+void CPURuntimeConfigurator::init_tensor_rank(const ov::snippets::lowered::LinearIRCPtr& linear_ir) const {
     m_config->tensor_rank = std::max(linear_ir->get_master_shape().size(), rank6D);
 }
 
-void CPURuntimeConfigurator::update_loop_args(const ov::snippets::lowered::LinearIRPtr& linear_ir) const {
+void CPURuntimeConfigurator::update_loop_args(const ov::snippets::lowered::LinearIRCPtr& linear_ir) const {
     const auto& cpu_config = ov::as_type_ptr<CPURuntimeConfig>(m_config);
     OPENVINO_ASSERT(cpu_config, "CPURuntimeConfigurator expects CPURuntimeConfig");
 
diff --git a/src/plugins/intel_cpu/src/emitters/snippets/cpu_runtime_configurator.hpp b/src/plugins/intel_cpu/src/emitters/snippets/cpu_runtime_configurator.hpp
index f1a21e5982aa1c..93cbb6b598146c 100644
--- a/src/plugins/intel_cpu/src/emitters/snippets/cpu_runtime_configurator.hpp
+++ b/src/plugins/intel_cpu/src/emitters/snippets/cpu_runtime_configurator.hpp
@@ -29,17 +29,17 @@ class CPURuntimeConfigurator : public ov::snippets::RuntimeConfigurator {
      * @brief Update RuntimeConfig based on LinearIR
      * @param linear_ir LinearIR
      */
-    void update(const ov::snippets::lowered::LinearIRPtr& linear_ir) override;
+    void update(const ov::snippets::lowered::LinearIRCPtr& linear_ir) override;
     /**
      * @brief Initializes tensor rank of config
      * @param linear_ir LinearIR
      */
-    void init_tensor_rank(const ov::snippets::lowered::LinearIRPtr& linear_ir) const override;
+    void init_tensor_rank(const ov::snippets::lowered::LinearIRCPtr& linear_ir) const override;
     /**
      * @brief Calculate Loop parameters of Loop emitters and update these values in CPURuntimeConfig
      * @param linear_ir LinearIR
      */
-    void update_loop_args(const ov::snippets::lowered::LinearIRPtr& linear_ir) const;
+    void update_loop_args(const ov::snippets::lowered::LinearIRCPtr& linear_ir) const;
 
     const size_t rank6D = 6;
 };
diff --git a/src/plugins/intel_cpu/src/emitters/snippets/x64/kernel_executors/brgemm.cpp b/src/plugins/intel_cpu/src/emitters/snippets/x64/kernel_executors/brgemm.cpp
index 920f95f0c8bc37..aa917c89dcb016 100644
--- a/src/plugins/intel_cpu/src/emitters/snippets/x64/kernel_executors/brgemm.cpp
+++ b/src/plugins/intel_cpu/src/emitters/snippets/x64/kernel_executors/brgemm.cpp
@@ -184,7 +184,7 @@ float BrgemmKernelExecutor::get_beta(const ov::snippets::lowered::LoopManagerPtr
     return 0;
 }
 void BrgemmKernelExecutor::update_config(const ov::snippets::lowered::ExpressionPtr& expr,
-                                         const ov::snippets::lowered::LinearIRPtr& linear_ir,
+                                         const ov::snippets::lowered::LinearIRCPtr& linear_ir,
                                          BrgemmKernelConfig& config) const {
     const auto& input_pds = expr->get_input_port_descriptors();
     const auto& output_pds = expr->get_output_port_descriptors();
diff --git a/src/plugins/intel_cpu/src/emitters/snippets/x64/kernel_executors/brgemm.hpp b/src/plugins/intel_cpu/src/emitters/snippets/x64/kernel_executors/brgemm.hpp
index b673c61d6d0aef..2549580c1a176c 100644
--- a/src/plugins/intel_cpu/src/emitters/snippets/x64/kernel_executors/brgemm.hpp
+++ b/src/plugins/intel_cpu/src/emitters/snippets/x64/kernel_executors/brgemm.hpp
@@ -100,7 +100,7 @@ class BrgemmKernelExecutor : public CPUKernelExecutor<BrgemmKernelConfig, Brgemm
 protected:
     std::shared_ptr<BrgemmCompiledKernel> compile_kernel(const BrgemmKernelConfig& c) const override;
     void update_config(const ov::snippets::lowered::ExpressionPtr& expr,
-                       const ov::snippets::lowered::LinearIRPtr& linear_ir,
+                       const ov::snippets::lowered::LinearIRCPtr& linear_ir,
                        BrgemmKernelConfig& config) const override;
 
     static float get_beta(const ov::snippets::lowered::LoopManagerPtr& loop_manager, int loop_id,
diff --git a/src/plugins/intel_cpu/src/nodes/subgraph.cpp b/src/plugins/intel_cpu/src/nodes/subgraph.cpp
index d6d127eb6981e4..86896ad3b4ca5f 100644
--- a/src/plugins/intel_cpu/src/nodes/subgraph.cpp
+++ b/src/plugins/intel_cpu/src/nodes/subgraph.cpp
@@ -746,15 +746,34 @@ void Subgraph::prepareParams() {
     const auto cache = context->getParamsCache();
 
     auto builder = [this, cache](const SubgraphKey& key) -> std::shared_ptr<SubgraphExecutor> {
-        const auto& snippet_config = ov::as_type_ptr<CPURuntimeConfig>(subgraph_attrs->snippet->update_runtime_config());
-        // Firstly, find the schedule in the cache
-        const auto code_gen_result = cache->getOrCreate(SubgraphCodeGeneratorKey(subgraph_attrs, getBroadcastingMask(in_shapes)),
-                                                        [&snippet_config](const SubgraphCodeGeneratorKey& key) -> std::shared_ptr<SubgraphCodeGenerator> {
-                                                            return std::make_shared<SubgraphCodeGenerator>(key.attrs, snippet_config);
-                                                        });
+        const auto& snippet = subgraph_attrs->snippet;
         if (is_dynamic) {
-            return std::make_shared<SubgraphDynamicSpecializedExecutor>(key.attrs, code_gen_result.first, start_offset_in, start_offset_out, snippet_config);
+            // Dynamic case:
+            // 1. Generate JIT code if needed
+            // 2. Update runtime config with dynamic values
+            //    If JIT code has been taken from cache, need to set cached kernel executor table for the configuration
+            // 3. Create SubgraphDynamicSpecializedExecutor
+            const auto code_gen_result = cache->getOrCreate(SubgraphCodeGeneratorKey(subgraph_attrs, getBroadcastingMask(in_shapes)),
+                                                            [](const SubgraphCodeGeneratorKey& key) -> std::shared_ptr<SubgraphCodeGenerator> {
+                                                                return std::make_shared<SubgraphCodeGenerator>(key.attrs, std::make_shared<CPURuntimeConfig>());
+                                                            });
+            const auto& code_gen = code_gen_result.first;
+            // [148644] : Update Kernel table from SubgraphCodeGenerator when JIT code was already generated with specific Kernel table
+            if (code_gen_result.second == CacheEntryBase::LookUpStatus::Hit) {
+                snippet->get_runtime_configurator()->set_kernel_executor_table(code_gen->get()->lowering_result.kernel_executor_table);
+            }
+            const auto& snippet_config = ov::as_type_ptr<CPURuntimeConfig>(snippet->update_runtime_config());
+            return std::make_shared<SubgraphDynamicSpecializedExecutor>(key.attrs, code_gen, start_offset_in, start_offset_out, snippet_config);
         } else {
+            // Static case:
+            // 1. Update runtime config to get static scheduling data (io data offsets, parallel domain) which will be compiled in JIT code
+            // 2. Generate JIT code with this static data if needed
+            // 3. Create SubgraphStaticExecutor
+            const auto& snippet_config = ov::as_type_ptr<CPURuntimeConfig>(snippet->update_runtime_config());
+            const auto code_gen_result = cache->getOrCreate(SubgraphCodeGeneratorKey(subgraph_attrs, getBroadcastingMask(in_shapes)),
+                                                            [&snippet_config](const SubgraphCodeGeneratorKey& key) -> std::shared_ptr<SubgraphCodeGenerator> {
+                                                                return std::make_shared<SubgraphCodeGenerator>(key.attrs, snippet_config);
+                                                            });
             return std::make_shared<SubgraphStaticExecutor>(key.attrs, code_gen_result.first, start_offset_in, start_offset_out, snippet_config);
         }
     };
diff --git a/src/plugins/intel_cpu/tests/functional/custom/subgraph_tests/src/x64/subgraph_caching.cpp b/src/plugins/intel_cpu/tests/functional/custom/subgraph_tests/src/x64/subgraph_caching.cpp
new file mode 100644
index 00000000000000..f9f17154dcca68
--- /dev/null
+++ b/src/plugins/intel_cpu/tests/functional/custom/subgraph_tests/src/x64/subgraph_caching.cpp
@@ -0,0 +1,125 @@
+// Copyright (C) 2024 Intel Corporation
+// SPDX-License-Identifier: Apache-2.0
+//
+
+// Motivation:
+// In a dynamic scenario, depending on the input shapes for the current node,
+//   -  we can either generate a new jit kernel or get an existing one from the cache
+//   -  we can either make shape inference or get existing output shapes from the cache
+// But the current single layer tests do not allow checking the case when the same kernel can be used for different nodes.
+// We check 2 Subgraphs with MatMuls inside to validate Kernel Executor table also
+
+//  -----------              -----------    -----------              -----------
+//  |input 0.0|              |input 0.1|    |input 1.0|              |input 1.1|
+//  -----------              -----------    -----------              -----------
+//       |                        |              |                        |
+//  ------------------------------------    ------------------------------------
+//  |            MatMul 0              |    |            Matmul 1              |
+//  ------------------------------------    ------------------------------------
+//                   |                                       |
+//  ------------------------------------    ------------------------------------
+//  |              Add 0               |    |              Add 1               |
+//  ------------------------------------    ------------------------------------
+//                   |                                       |
+//  ----------------------------------------------------------------------------
+//  |                                 concat                                   |
+//  ----------------------------------------------------------------------------
+//                                       |
+//                                   --------
+//                                   |output|
+//                                   --------
+
+#include "snippets/op/subgraph.hpp"
+#include "common_test_utils/common_utils.hpp"
+#include "common_test_utils/ov_tensor_utils.hpp"
+#include "common_test_utils/node_builders/eltwise.hpp"
+#include "common_test_utils/node_builders/constant.hpp"
+#include "shared_test_classes/base/ov_subgraph.hpp"
+#include "utils/cpu_test_utils.hpp"
+#include "internal_properties.hpp"
+
+namespace ov {
+namespace test {
+using namespace ov::test::utils;
+
+typedef std::tuple<
+        std::vector<InputShape>, // Input Shapes
+        ElementType              // Input precisions
+> SubgraphCacheTestParams;
+
+class SubgraphCacheTest : public testing::WithParamInterface<SubgraphCacheTestParams>,
+                          virtual public SubgraphBaseTest {
+public:
+    static std::string getTestCaseName(const testing::TestParamInfo<SubgraphCacheTestParams> &obj) {
+        std::vector<InputShape> inputShapes;
+        ElementType inputPrecision;
+        std::tie(inputShapes, inputPrecision) = obj.param;
+
+        std::ostringstream results;
+
+         for (size_t i = 0; i < inputShapes.size(); i++) {
+            results << "IS[" << i << "]=" << inputShapes[i];
+        }
+
+        results << "InPRC" << "=" << inputPrecision << "_";
+
+        return results.str();
+    }
+
+protected:
+    void SetUp() override {
+        targetDevice = ov::test::utils::DEVICE_CPU;
+
+        std::vector<InputShape> inputShapes;
+        ElementType inputPrecision;
+        std::tie(inputShapes, inputPrecision) = this->GetParam();
+
+        init_input_shapes(inputShapes);
+
+        // Enable Snippets
+        configuration.insert(ov::intel_cpu::snippets_mode(ov::intel_cpu::SnippetsMode::IGNORE_CALLBACK));
+
+        ov::ParameterVector paramVec;
+        for (size_t i = 0; i < inputDynamicShapes.size(); i++) {
+            paramVec.push_back(std::make_shared<ov::op::v0::Parameter>(inputPrecision, inputDynamicShapes[i]));
+        }
+
+        auto matmul0 = std::make_shared<ov::op::v0::MatMul>(paramVec[0], paramVec[1]);
+        auto matmul1 = std::make_shared<ov::op::v0::MatMul>(paramVec[2], paramVec[3]);
+
+        auto const0 = utils::make_constant(matmul0->get_output_element_type(0), ov::Shape{1});
+        auto const1 = utils::make_constant(matmul1->get_output_element_type(0), ov::Shape{1});
+
+        auto add0 = std::make_shared<ov::op::v1::Add>(matmul0, const0);
+        auto add1 = std::make_shared<ov::op::v1::Add>(matmul1, const1);
+
+        auto concat = std::make_shared<ov::op::v0::Concat>(ov::NodeVector{add0, add1}, -1);
+        function = std::make_shared<ov::Model>(concat, paramVec, "Subgraph");
+    }
+};
+
+TEST_P(SubgraphCacheTest, CompareWithRefs) {
+    run();
+
+    CPUTestUtils::CheckNumberOfNodesWithType(compiledModel, "MatMul", 0);
+    CPUTestUtils::CheckNumberOfNodesWithType(compiledModel, "Subgraph", 2);
+}
+
+namespace {
+
+std::vector<InputShape> inputShapes {
+    {{1, 2, -1, -1}, {{1, 2, 10, 3}, {1, 2, 10, 3}, {1, 2, 10, 8}, {1, 2, 10, 3}}},
+    {{1, 2, -1, -1}, {{1, 2, 3, 12}, {1, 2, 3, 12}, {1, 2, 8,  9}, {1, 2, 3, 12}}},
+    {{1, 2, -1, -1}, {{1, 2, 10, 8}, {1, 2, 10, 3}, {1, 2, 10, 3}, {1, 2, 10, 8}}},
+    {{1, 2, -1, -1}, {{1, 2, 8,  9}, {1, 2, 3, 12}, {1, 2, 3, 12}, {1, 2, 8,  9}}},
+};
+
+INSTANTIATE_TEST_SUITE_P(smoke_SubgraphCache, SubgraphCacheTest,
+                        ::testing::Combine(
+                                ::testing::Values(inputShapes),
+                                ::testing::Values(ElementType::f32)),
+                        SubgraphCacheTest::getTestCaseName);
+
+}  // namespace
+}  // namespace test
+}  // namespace ov
\ No newline at end of file

From f534e5abcda6ef7c19b7b0b9711b7b43ad63a280 Mon Sep 17 00:00:00 2001
From: Roman Lyamin <Roman.Lyamin@intel.com>
Date: Wed, 7 Aug 2024 14:23:58 +0400
Subject: [PATCH 21/24] [GPU] Fix selection of preferred formats for onednn for
 weights (#25889)

### Details:
- *Minor fix for https://github.com/openvinotoolkit/openvino/pull/25697*

### Tickets:
 - *[148722](https://jira.devtools.intel.com/browse/CVS-148722)*
---
 src/plugins/intel_gpu/src/graph/layout_optimizer.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp b/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp
index 864aded889b54c..8959d449b21b63 100644
--- a/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp
+++ b/src/plugins/intel_gpu/src/graph/layout_optimizer.cpp
@@ -1943,7 +1943,7 @@ void layout_optimizer::select_preferred_formats_for_onednn(program_node& node, d
             if (idx == prim_input) {
                 src_fmt = onednn::find_data_format(prim_desc.src_desc());
             } else if (idx == prim_weights) {
-                src_fmt = format::custom;
+                src_fmt = format::any;
             } else {  // Dep for fused post ops
                 src_fmt = onednn::find_data_format(prim_desc.dst_desc());
             }

From cf6cb439f27dbb71d03a601149417fed2f2f3317 Mon Sep 17 00:00:00 2001
From: Steve Yoo <steve.yoo@intel.com>
Date: Wed, 7 Aug 2024 11:21:35 +0000
Subject: [PATCH 22/24] [GPU] Match concat input format (#25891)

### Details:
 - *Make the input format of concatenation same as output format*

### Tickets:
 - *147692*
---
 .../graph/graph_optimizer/reorder_inputs.cpp  | 25 +++++++++++++++++--
 1 file changed, 23 insertions(+), 2 deletions(-)

diff --git a/src/plugins/intel_gpu/src/graph/graph_optimizer/reorder_inputs.cpp b/src/plugins/intel_gpu/src/graph/graph_optimizer/reorder_inputs.cpp
index cdc56673f8c6a9..65cf9a692c91b8 100644
--- a/src/plugins/intel_gpu/src/graph/graph_optimizer/reorder_inputs.cpp
+++ b/src/plugins/intel_gpu/src/graph/graph_optimizer/reorder_inputs.cpp
@@ -937,14 +937,35 @@ void reorder_inputs::run(program& p, layout_optimizer& lo, reorder_factory& rf)
         }
     };
 
+    const auto reorder_input_concat = [&p, &rf](typed_program_node<concatenation>& concat_node) {
+        auto output_layout = concat_node.get_output_layout();
+        // Iterate over all dependencies of the concat node
+        for (size_t i = 0; i < concat_node.get_dependencies().size(); ++i) {
+            auto dep = concat_node.get_dependency_with_port(i);
+            const auto& input = dep.first;
+            auto input_layout = input->get_output_layout();
+            // Change input data type of concat node from input format to output format
+            if (input_layout.format != output_layout.format) {
+                auto new_layout = input_layout;
+                new_layout.format = output_layout.format;
+                auto new_input = rf.get_reorder(input->id(), dep.second, input_layout, new_layout);
+                if (new_input.first) {
+                    p.add_intermediate(new_input.first, concat_node, i);
+                    concat_node.get_dependency_with_port(i).first->recalc_output_layout();
+                }
+            }
+        }
+    };
+
     for (auto& prim : p.get_processing_order()) {
-        program_helpers::do_for_types<detection_output, deconvolution, convolution, fully_connected, pooling>(
+        program_helpers::do_for_types<detection_output, deconvolution, convolution, fully_connected, pooling, concatenation>(
             *prim,
             reorder_input_detection_output,
             reorder_input_and_weights_deconvolution,
             reorder_convolution,
             reorder_input_fully_connected,
-            reorder_input_pooling);
+            reorder_input_pooling,
+            reorder_input_concat);
     }
 
     for (auto n : p.get_processing_order()) {

From 6f98a2782c34cb8fc5c9c6c591d18cd6569eb604 Mon Sep 17 00:00:00 2001
From: Ujjayant Kadian <118752727+ujjayant-kadian@users.noreply.github.com>
Date: Wed, 7 Aug 2024 12:31:55 +0100
Subject: [PATCH 23/24] NPUW: Adding a new dcoff pattern (#25938)

### Details:
- Implemented a new pattern in continuation of the PR:
[PR:2587](https://github.com/openvinotoolkit/openvino/pull/25827).

### Tickets:
 - *121052*

Co-authored-by: Dmitry Matveev <dmitry.matveev@intel.com>
---
 .../plugin/npuw/partitioning/partitioning.cpp |  3 +
 .../npuw/partitioning/patterns/dcoff.cpp      | 83 +++++++++++++++++++
 .../npuw/partitioning/patterns/dcoff.hpp      |  5 ++
 3 files changed, 91 insertions(+)

diff --git a/src/plugins/intel_npu/src/plugin/npuw/partitioning/partitioning.cpp b/src/plugins/intel_npu/src/plugin/npuw/partitioning/partitioning.cpp
index efd61140e080b2..bb1905b25ed1f6 100644
--- a/src/plugins/intel_npu/src/plugin/npuw/partitioning/partitioning.cpp
+++ b/src/plugins/intel_npu/src/plugin/npuw/partitioning/partitioning.cpp
@@ -1624,6 +1624,9 @@ void Partitioner::decompressionCutOff(const std::string& func_name) {
         // LLaMaGPTQ
         rewr.add_matcher<ov::npuw::patterns::SymmZP::DCOFFPassReshape2>(dcoff_mode, dcoff_type, std::ref(params_to));
 
+        // Phi-3 4SymW16A/GPTQ
+        rewr.add_matcher<ov::npuw::patterns::SymmZP::DCOFFPassCWAI3>(dcoff_mode, dcoff_type, std::ref(params_to));
+
         rewr.run_on_model(f._model);
 
         ov::pass::Validate val;
diff --git a/src/plugins/intel_npu/src/plugin/npuw/partitioning/patterns/dcoff.cpp b/src/plugins/intel_npu/src/plugin/npuw/partitioning/patterns/dcoff.cpp
index 156f22e59514b4..99ff93a606697a 100644
--- a/src/plugins/intel_npu/src/plugin/npuw/partitioning/patterns/dcoff.cpp
+++ b/src/plugins/intel_npu/src/plugin/npuw/partitioning/patterns/dcoff.cpp
@@ -512,6 +512,89 @@ DCOFFPassReshape2::DCOFFPassReshape2(DCOffMode dcoff_mode, ov::element::Type dco
     register_matcher(std::make_shared<opp::Matcher>(reshpe, "TagDCOFFReshape2"), std::move(callback));
 }
 
+// Pattern: Phi-3 4SymW16A/GPTQ
+//
+//
+//   "tensor"       "scale"           >            "tensor"
+//    Param:A       Param:C           >             Param:A
+//      i4          f16|f32           >              f16
+//       :           :                >               :
+//       V          :                 >               V
+//     Convert     :                  >              Convert
+//     f16|f32    :                   >                f32
+//        :      :                    >
+//        V      V                    >
+//        Multiply                    >
+//         f16|f32                    >
+//            :                       >
+//            :                       >
+//            V                       >
+//         Convert
+
+DCOFFPassCWAI3::DCOFFPassCWAI3(DCOffMode dcoff_mode, ov::element::Type dcoff_type, DCOFFParamRef pref) {
+    auto paramA = opp::wrap_type<ov::op::v0::Parameter>();
+    auto paramC = opp::wrap_type<ov::op::v0::Parameter>();
+    auto cvtA = opp::wrap_type<ov::op::v0::Convert>({paramA});
+    auto mulply = opp::wrap_type<ov::op::v1::Multiply>({cvtA, paramC});
+    auto cvt = opp::wrap_type<ov::op::v0::Convert>({mulply});
+
+    auto callback = [=](ov::pass::pattern::Matcher& m) {
+        auto& node_to_output = m.get_pattern_value_map();
+        auto matched_nodeA = node_to_output.at(paramA).get_node_shared_ptr();
+        auto matched_nodeC = node_to_output.at(paramC).get_node_shared_ptr();
+
+        NPUW_ASSERT(ov::op::util::is_parameter(matched_nodeA));
+        NPUW_ASSERT(ov::op::util::is_parameter(matched_nodeC));
+
+        auto matched_paramA = std::static_pointer_cast<ov::op::v0::Parameter>(matched_nodeA);
+        auto matched_paramC = std::static_pointer_cast<ov::op::v0::Parameter>(matched_nodeC);
+
+        if (ov::element::i4 == matched_paramA->get_element_type() &&
+            (ov::element::f16 == matched_paramC->get_element_type() ||
+             ov::element::f32 == matched_paramC->get_element_type())) {
+            LOG_DEBUG("Matched: " << matched_paramA << ", set element type to " << dcoff_type);
+            matched_paramA->set_element_type(dcoff_type);
+
+            if (dcoff_mode == DCOffMode::CAST_SCALE) {
+                NPUW_ASSERT(dcoff_type == ov::element::f16);
+
+                LOG_DEBUG("Matched: " << matched_paramC << " - parameter to remove...");
+                LOG_BLOCK();
+
+                // Extra transformation here:
+                // - remove Multiply + Intermediate Convert
+                // - mark paramC for removal.
+                // Convert will be reconnected to paramA directly.
+
+                // Record mapping from the Scale coeff parameter to the Real weight parameter
+                pref.get().scales[matched_paramC] = matched_paramA;
+
+                // Disconnect Multiply and Convert from their outputs
+                auto matched_mulply = node_to_output.at(mulply).get_node_shared_ptr();
+                auto matched_convrt = node_to_output.at(cvtA).get_node_shared_ptr();
+                auto drop_outputs = [](std::shared_ptr<ov::Node> node) {
+                    for (auto&& node_outputs : node->outputs()) {
+                        for (auto&& node_reader_port : node_outputs.get_target_inputs()) {
+                            node_outputs.remove_target_input(node_reader_port);
+                        }
+                    }
+                };
+                LOG_DEBUG("Dropping the connections...");
+                drop_outputs(matched_mulply);
+                drop_outputs(matched_convrt);
+
+                LOG_DEBUG("Reconnecting the Root...");
+                auto matched_cvt = node_to_output.at(cvt).get_node_shared_ptr();
+                matched_cvt->input(0).replace_source_output(matched_paramA);
+            }
+            LOG_DEBUG("Done");
+        }
+        return false;  // root node hasn't changed
+    };
+
+    register_matcher(std::make_shared<opp::Matcher>(cvt, "TagDCOFFPassCWAI3"), std::move(callback));
+}
+
 //------------------------------------------------------------------------------
 // Pattern: 4SymW16A for CWAI
 //
diff --git a/src/plugins/intel_npu/src/plugin/npuw/partitioning/patterns/dcoff.hpp b/src/plugins/intel_npu/src/plugin/npuw/partitioning/patterns/dcoff.hpp
index 385a63370655e5..83ed575f8afd41 100644
--- a/src/plugins/intel_npu/src/plugin/npuw/partitioning/patterns/dcoff.hpp
+++ b/src/plugins/intel_npu/src/plugin/npuw/partitioning/patterns/dcoff.hpp
@@ -129,6 +129,11 @@ class DCOFFPassReshape2 : public ov::pass::MatcherPass {
     DCOFFPassReshape2(DCOffMode dcoff_mode, ov::element::Type dcoff_type, DCOFFParamRef pref);
 };
 
+class DCOFFPassCWAI3 : public ov::pass::MatcherPass {
+public:
+    DCOFFPassCWAI3(DCOffMode dcoff_mode, ov::element::Type dcoff_type, DCOFFParamRef pref);
+};
+
 class CWAI1 : public ov::pass::MatcherPass {
 public:
     using CPtr = std::shared_ptr<ov::op::v0::Constant>;

From 41691a36b908c1b9c8e3be248588996e5a7efefc Mon Sep 17 00:00:00 2001
From: Alexandra Sidorova <alexandra.sidorova@intel.com>
Date: Wed, 7 Aug 2024 16:25:38 +0400
Subject: [PATCH 24/24] [RISCV64] Moved FC weights repacking to model
 compilation stage (#25837)

### Details:
- *Moved FullyConnected RVV weights repacking from execution stage to
compilation model stage*
- *PR to the SHL repository:
https://github.com/openvinotoolkit/shl/pull/6*

### Tickets:
 - *N/A*
---
 .../executors/shl/shl_fullyconnected.cpp      | 37 ++++++++++++++++++-
 .../executors/shl/shl_fullyconnected.hpp      |  2 +
 src/plugins/intel_cpu/thirdparty/shl          |  2 +-
 3 files changed, 38 insertions(+), 3 deletions(-)

diff --git a/src/plugins/intel_cpu/src/nodes/executors/shl/shl_fullyconnected.cpp b/src/plugins/intel_cpu/src/nodes/executors/shl/shl_fullyconnected.cpp
index 8bfad5e86cf022..829502cefdcd7d 100644
--- a/src/plugins/intel_cpu/src/nodes/executors/shl/shl_fullyconnected.cpp
+++ b/src/plugins/intel_cpu/src/nodes/executors/shl/shl_fullyconnected.cpp
@@ -5,12 +5,44 @@
 #include "shl_fullyconnected.hpp"
 
 #include "csinn/csi_nn.h"
+#include "rvv/rvv.h"
 #include "nodes/executors/executor.hpp"
 #include "nodes/executors/memory_arguments.hpp"
+#include "nodes/common/cpu_memcpy.h"
 #include "utils/debug_capabilities.h"
 
 namespace ov {
 namespace intel_cpu {
+namespace {
+static MemoryPtr prepareWeightMemory(const MemoryPtr weightsMemory, const ExecutorContext::CPtr context) {
+    DEBUG_LOG("ShlFCExecutor: prepack weights");
+
+    auto create = [&]() {
+        const auto& weiDesc = weightsMemory->getDescPtr();
+        MemoryPtr _ptr = std::make_shared<Memory>(context->getEngine(),
+                                                  intel_cpu::CpuBlockedMemoryDesc(ov::element::f32, weightsMemory->getShape()));
+        cpu_parallel_memcpy(_ptr->getData(), weightsMemory->getData(), weightsMemory->getSize());
+        DEBUG_LOG("ShlFCExecutor: cache miss, perform packing");
+        const auto repack_wei = ShlTensor(ShlSession(), precisionToShlDataType(weiDesc->getPrecision()), getShlDataLayoutByMemoryDesc(weiDesc, true),
+                                          weiDesc->getShape().getStaticDims(), _ptr->getData());
+        shl_rvv_fc_gemm_reorder_weight_fp32(repack_wei.get());
+        return _ptr;
+    };
+
+    auto weightCache = context->getWeightsCache();
+    if (weightCache != nullptr) {
+        const auto& wgtDims = weightsMemory->getStaticDims();
+        std::string format = "gemm_shl_" + std::to_string(wgtDims[0]) + "_" + std::to_string(wgtDims[1]);
+        const std::string string_hash = format + "_" + std::to_string(weightsMemory->getSize()) + "_" +
+                                        std::to_string(reinterpret_cast<uint64_t>(weightsMemory->getData()));
+        DEBUG_LOG("ShlFCExecutor: findOrCreate, string_hash: ", string_hash);
+        return *weightCache->findOrCreate(string_hash, create);
+    }
+
+    DEBUG_LOG("ShlFCExecutor: Weights cache is not available");
+    return create();
+}
+} // namespace
 
 bool ShlFCExecutor::supports(const FCConfig& config) {
     if (config.attrs.weightsNonTransposed) {
@@ -53,7 +85,8 @@ bool ShlFCExecutor::supports(const FCConfig& config) {
 ShlFCExecutor::ShlFCExecutor(const FCAttrs& attrs,
                              const PostOps& postOps,
                              const MemoryArgs& memory,
-                             const ExecutorContext::CPtr context) {
+                             const ExecutorContext::CPtr context)
+    : packedWeights(prepareWeightMemory(memory.at(ARG_WEI), context)) {
     const auto& srcDesc = memory.at(ARG_SRC)->getDescPtr();
     const auto& weiDesc = memory.at(ARG_WEI)->getDescPtr();
     const auto& dstDesc = memory.at(ARG_DST)->getDescPtr();
@@ -93,7 +126,7 @@ bool ShlFCExecutor::update(const MemoryArgs& memory) {
 
 void ShlFCExecutor::execute(const MemoryArgs& memory) {
     src.setData(memory.at(ARG_SRC)->getData());
-    wei.setData(memory.at(ARG_WEI)->getData());
+    wei.setData(packedWeights->getData());
     dst.setData(memory.at(ARG_DST)->getData());
     if (with_bias) {
         bias.setData(memory.at(ARG_BIAS)->getData());
diff --git a/src/plugins/intel_cpu/src/nodes/executors/shl/shl_fullyconnected.hpp b/src/plugins/intel_cpu/src/nodes/executors/shl/shl_fullyconnected.hpp
index 76d742080abcfa..129b2e35867809 100644
--- a/src/plugins/intel_cpu/src/nodes/executors/shl/shl_fullyconnected.hpp
+++ b/src/plugins/intel_cpu/src/nodes/executors/shl/shl_fullyconnected.hpp
@@ -36,6 +36,8 @@ class ShlFCExecutor : public Executor {
     ShlSession sess = {};
     ShlFCParams params = {};
 
+    const MemoryCPtr packedWeights;
+
     bool with_bias = false;
 };
 using ShlFCExecutorPtr = std::shared_ptr<ShlFCExecutor>;
diff --git a/src/plugins/intel_cpu/thirdparty/shl b/src/plugins/intel_cpu/thirdparty/shl
index 3a7d230ab1ab39..9c7294c066edee 160000
--- a/src/plugins/intel_cpu/thirdparty/shl
+++ b/src/plugins/intel_cpu/thirdparty/shl
@@ -1 +1 @@
-Subproject commit 3a7d230ab1ab39b29222ec78cbc3f4e4c3bf7a56
+Subproject commit 9c7294c066edee808a47f2a714f84203cd643f9f