Optimize flip kernel by eliminating H2D data transfer, test=develop #46046

Courtesy-Xs · 2022-09-14T10:28:37Z

PR types

Performance optimization

PR changes

OPs

Describe

Test environment
pytorch 1.12.1+102
paddle 2.3+102
cuda 11.2
integration times 1000
dype float32
shape [100,1785]
axis 1

Test Result

Xreki · 2022-09-15T02:52:01Z

paddle/phi/kernels/gpu/flip_kernel.cu

-  std::vector<int> flip_dims = axis;
-
+template <typename T, typename Context, size_t N>
+void launch_flip_cuda_kernel(const Context& dev_ctx,


launch_flip_cuda_kernel -> LaunchFlipCudaKernel，函数命名是大驼峰式。

Xreki · 2022-09-15T03:00:19Z

paddle/phi/kernels/gpu/flip_kernel.cu


  int block_size = 512;
  dim3 dim_block(block_size);
-  dim3 dim_grid((N + block_size - 1) / block_size);
+  dim3 dim_grid((numel + block_size - 1) / block_size);


线程配置，可以调用phi::backends::gpu::GetGpuLaunchConfig1D函数

Xreki · 2022-09-15T03:01:25Z

paddle/phi/kernels/gpu/flip_kernel.cu


 namespace phi {

-template <typename T>
+template <typename T, size_t Rank>
 __global__ void flip_cuda_kernel(const int N,


后续将N改成int64_t类型吧

Xreki · 2022-09-15T03:01:55Z

paddle/phi/kernels/gpu/flip_kernel.cu

  auto x_dims = x.dims();
  const int total_dims = x_dims.size();
-  const int N = x.numel();
+  const int numel = x.numel();


numel建议使用int64_t类型

Xreki · 2022-09-15T03:06:35Z

paddle/phi/kernels/gpu/flip_kernel.cu

+  for (size_t idx = 0; idx < N; ++idx) {
+    stride_a[idx] = x_stride[idx];
+    shape_a[idx] = x_dims[idx];
+    flip_dims_a[idx] = idx < flip_dims_size ? flip_dims_v[idx] : 0;


flip_dims_v也没有必要吧，直接写入flip_dims_a就行？

Xreki

LGTM，review建议可以下个pr再修改

Courtesy-Xs added 2 commits September 15, 2022 02:07

Optimize flip kernel by eliminating H2D data transfer, test=develop

2ef9099

Optimize flip kernel by eliminating H2D data transfer, test=develop

808b3b3

Courtesy-Xs force-pushed the flip_optimize branch from 8f4a035 to 808b3b3 Compare September 15, 2022 02:07

Xreki reviewed Sep 15, 2022

View reviewed changes

Xreki mentioned this pull request Sep 15, 2022

Optimize flip kernel by eliminating H2D data transfer #46015

Closed

Xreki approved these changes Sep 15, 2022

View reviewed changes

Xreki merged commit b3283f4 into PaddlePaddle:develop Sep 15, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimize flip kernel by eliminating H2D data transfer, test=develop #46046

Optimize flip kernel by eliminating H2D data transfer, test=develop #46046

Courtesy-Xs commented Sep 14, 2022

Xreki Sep 15, 2022

Xreki Sep 15, 2022

Xreki Sep 15, 2022

Xreki Sep 15, 2022

Xreki Sep 15, 2022

Xreki left a comment •

edited

Loading

Optimize flip kernel by eliminating H2D data transfer, test=develop #46046

Optimize flip kernel by eliminating H2D data transfer, test=develop #46046

Conversation

Courtesy-Xs commented Sep 14, 2022

PR types

PR changes

Describe

Xreki Sep 15, 2022

Choose a reason for hiding this comment

Xreki Sep 15, 2022

Choose a reason for hiding this comment

Xreki Sep 15, 2022

Choose a reason for hiding this comment

Xreki Sep 15, 2022

Choose a reason for hiding this comment

Xreki Sep 15, 2022

Choose a reason for hiding this comment

Xreki left a comment • edited Loading

Choose a reason for hiding this comment

Xreki left a comment •

edited

Loading