Extra FillFunctor kernels #3267

cowanmeg · 2024-10-24T18:35:02Z

In the multidevice transformer tests there are extra FillFunctor kernels.

Previously we generated these kernels:

ampere_bf16_s16816gemm_bf16_256x128_ldg8_f2f_stages_64x3_nn
<unnamed>::nvfuser_pointwise_f0_c1_r0_g12(<unnamed>::Tensor<<unnamed>::__bfloat, (int)2, (int)2>, <unnamed>::Tensor<<unnamed>::__bfloat, (int)3, (int)3>, <unnamed>::Tensor<<unnamed>::__bfloat, (int)3, (int)3>)
ampere_bf16_s16816gemm_bf16_256x128_ldg8_f2f_stages_64x3_nn
ncclDevKernel_AllReduce_Sum_bf16_RING_LL(ncclDevKernelArgsStorage<(unsigned long)4096>)
<unnamed>::nvfuser_pointwise_f0_c1_r0_g15(<unnamed>::Tensor<<unnamed>::__bfloat, (int)1, (int)1>, <unnamed>::Tensor<<unnamed>::__bfloat, (int)2, (int)2>, <unnamed>::Tensor<float, (int)2, (int)2>, long long *, long long, long long *, long long, <unnamed>::Tensor<float, (int)2, (int)2>, <unnamed>::Tensor<float, (int)2, (int)2>)

Currently (note the different gemm is intentional and resulted from switching from matmul + bias add to linear):

ampere_bf16_s16816gemm_bf16_128x64_ldg8_relu_f2f_stages_64x4_tn
void at::native::vectorized_elementwise_kernel<(int)4, at::native::FillFunctor<c10::BFloat16>, at::detail::Array<char *, (int)1>>(int, T2, T3)
<unnamed>::nvfuser_pointwise_f0_c1_r0_g4(<unnamed>::Tensor<<unnamed>::__bfloat, (int)3, (int)3>, <unnamed>::Tensor<<unnamed>::__bfloat, (int)3, (int)3>)
ampere_bf16_s16816gemm_bf16_64x64_sliced1x2_ldg8_f2f_stages_64x5_tn
void at::native::vectorized_elementwise_kernel<(int)4, at::native::FillFunctor<c10::BFloat16>, at::detail::Array<char *, (int)1>>(int, T2, T3)
ncclDevKernel_AllReduce_Sum_bf16_RING_LL(ncclDevKernelArgsStorage<(unsigned long)4096>)
void at::native::vectorized_elementwise_kernel<(int)4, at::native::FillFunctor<float>, at::detail::Array<char *, (int)1>>(int, T2, T3)
void at::native::vectorized_elementwise_kernel<(int)4, at::native::FillFunctor<float>, at::detail::Array<char *, (int)1>>(int, T2, T3)
<unnamed>::nvfuser_pointwise_f0_c1_r0_g5(<unnamed>::Tensor<<unnamed>::__bfloat, (int)1, (int)1>, <unnamed>::Tensor<<unnamed>::__bfloat, (int)2, (int)2>, long long *, long long, long long *, long long, <unnamed>::Tensor<float, (int)3, (int)3>, <unnamed>::Tensor<float, (int)3, (int)3>)

The text was updated successfully, but these errors were encountered:

cowanmeg added Multidevice perf labels Oct 24, 2024

cowanmeg self-assigned this Oct 24, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Extra FillFunctor kernels #3267

Extra FillFunctor kernels #3267

cowanmeg commented Oct 24, 2024

Extra FillFunctor kernels #3267

Extra FillFunctor kernels #3267

Comments

cowanmeg commented Oct 24, 2024