PaddlePaddle · co63oc · May 30, 2024 · May 30, 2024 · May 30, 2024 · Jun 4, 2024
diff --git a/paddle/fluid/operators/fused/CMakeLists.txt b/paddle/fluid/operators/fused/CMakeLists.txt
@@ -14,7 +14,6 @@ register_operators(
   fused_multi_transformer_op
   fused_multi_transformer_int8_op
   resnet_unit_op
-  fused_gemm_epilogue_op
   fused_gate_attention_op
   resnet_basic_block_op)
 
@@ -23,7 +22,6 @@ op_library(fusion_lstm_op)
 if(WITH_XPU)
   op_library(resnet_basic_block_op)
   op_library(resnet_unit_op)
-  op_library(fused_gemm_epilogue_op)
   op_library(fused_attention_op)
   op_library(fused_feedforward_op)
 endif()
@@ -55,8 +53,4 @@ if(WITH_GPU OR WITH_ROCM)
   if((NOT WITH_ROCM) AND (NOT ${CUDNN_VERSION} VERSION_LESS 8000))
     op_library(resnet_unit_op)
   endif()
-
-  if(CUDA_VERSION GREATER_EQUAL 11.6)
-    op_library(fused_gemm_epilogue_op)
-  endif()
 endif()
diff --git a/paddle/fluid/operators/fused/fused_gemm_epilogue_op.cc b/paddle/fluid/operators/fused/fused_gemm_epilogue_op.cc
diff --git a/paddle/fluid/operators/ops_signature/fused_gemm_epilogue_sig.cc b/paddle/fluid/operators/ops_signature/fused_gemm_epilogue_sig.cc
diff --git a/paddle/fluid/pir/dialect/op_generator/op_gen.py b/paddle/fluid/pir/dialect/op_generator/op_gen.py
@@ -335,6 +335,7 @@ class {TEST_API} {op_name} : public pir::Op<{op_name}{interfaces}{traits}> {{
     'add_n_',
     'split_grad',
     'expand',
+    'fused_gemm_epilogue',
     'increment',
     'increment_',
     'assign_out_',

diff --git a/paddle/phi/ops/yaml/fused_backward.yaml b/paddle/phi/ops/yaml/fused_backward.yaml
@@ -63,3 +63,13 @@
   kernel :
     func : max_pool2d_v2_grad
     param: [x, out, saved_idx, out_grad, kernel_size, strides, paddings, data_format, global_pooling, adaptive]
+
+- backward_op: fused_gemm_epilogue_grad
+  forward : fused_gemm_epilogue(Tensor x, Tensor y, Tensor bias, bool trans_x, bool trans_y, str activation) -> Tensor(out), Tensor(reserve_space)
+  args : (Tensor x, Tensor y, Tensor reserve_space, Tensor out_grad, bool trans_x, bool trans_y, str activation)
+  output : Tensor(x_grad), Tensor(y_grad), Tensor(bias_grad)
+  infer_meta :
+    func : FusedGemmEpilogueGradInferMeta
+  kernel:
+    func : fused_gemm_epilogue_grad
+  optional : reserve_space
diff --git a/paddle/phi/ops/yaml/fused_ops.yaml b/paddle/phi/ops/yaml/fused_ops.yaml
@@ -340,6 +340,13 @@
     data_type : x
   optional : bias0, scale, bias1, mean, variance
 
+- op : fused_gemm_epilogue
+  args : (Tensor x, Tensor y, Tensor bias, bool trans_x, bool trans_y, str activation)
+  output : Tensor(out), Tensor(reserve_space)
+  invoke : fused_gemm_epilogue_impl(x, y, bias, trans_x, trans_y, activation)
+  backward: fused_gemm_epilogue_grad
+  optional: reserve_space
+
 - op : fused_linear_param_grad_add
   args : (Tensor x, Tensor dout, Tensor dweight, Tensor dbias, bool multi_precision = true, bool has_bias = true)
   output : Tensor(dweight_out), Tensor(dbias_out)

diff --git a/paddle/phi/ops/yaml/inconsistent/dygraph_backward.yaml b/paddle/phi/ops/yaml/inconsistent/dygraph_backward.yaml
@@ -367,16 +367,6 @@
   composite : tile_grad(x, out_grad, repeat_times, x_grad)
   backward : tile_double_grad
 
-- backward_op: fused_gemm_epilogue_grad
-  forward : fused_gemm_epilogue(Tensor x, Tensor y, Tensor bias, bool trans_x, bool trans_y, str activation) -> Tensor(out), Tensor(reserve_space)
-  args : (Tensor x, Tensor y, Tensor reserve_space, Tensor out_grad, bool trans_x, bool trans_y, str activation)
-  output : Tensor(x_grad), Tensor(y_grad), Tensor(bias_grad)
-  infer_meta :
-    func : FusedGemmEpilogueGradInferMeta
-  kernel:
-    func : fused_gemm_epilogue_grad
-  optional : reserve_space
-
 - backward_op: maximum_double_grad
   forward: maximum_grad(Tensor x, Tensor y, Tensor grad_out) -> Tensor(grad_x), Tensor(grad_y)
   args: (Tensor x, Tensor y, Tensor grad_x_grad, Tensor grad_y_grad)

diff --git a/paddle/phi/ops/yaml/inconsistent/dygraph_ops.yaml b/paddle/phi/ops/yaml/inconsistent/dygraph_ops.yaml
@@ -161,13 +161,6 @@
   optional : skip_update, master_params
   inplace : (params -> params_out), (moments1 -> moments1_out), (moments2 -> moments2_out), (beta1_pows -> beta1_pows_out), (beta2_pows -> beta2_pows_out), (master_params -> master_params_out)
 
-- op : fused_gemm_epilogue
-  args : (Tensor x, Tensor y, Tensor bias, bool trans_x, bool trans_y, str activation)
-  output : Tensor(out), Tensor(reserve_space)
-  invoke : fused_gemm_epilogue_impl(x, y, bias, trans_x, trans_y, activation)
-  backward: fused_gemm_epilogue_grad
-  optional: reserve_space
-
 - op : greater_equal
   args : (Tensor x, Tensor y)
   output : Tensor(out)