Adding backward kernel for repkv on `llama3` branch (cudamode-irl) #764

insop · 2024-09-22T03:46:40Z

PTAL, repkv_backward is updated and tested.
I will update repkv.cuh once this PR is merged.

This is an WIP repkv backward kernel, started as a cudamode-irl project.
Once the following work is done, will remove draft sign.

This work was supported by ALEKSA (@gordicaleksa) , Eric (@ngc92), ARUN (@ademeure) during the irl event.

pytorch backward test code
CPU kernel
Cuda kernel
build

make repkv_backward
/usr/local/cuda/bin/nvcc -O3 --use_fast_math --generate-code arch=compute_80,code=[compute_80,sm_80] -lcublas -lcublasLt -std=c++17 repkv_backward.cu -o repkv_backward

test run on A30

Using kernel 1
Checking block size 32.
0.531524 0.531524
0.600285 0.600285
0.458787 0.458787
0.296680 0.296680
-0.911627 -0.911627
Checking block size 64.
0.531524 0.531524
0.600285 0.600285
0.458787 0.458787
0.296680 0.296680
-0.911627 -0.911627
Checking block size 128.
0.531524 0.531524
0.600285 0.600285
0.458787 0.458787
0.296680 0.296680
-0.911627 -0.911627
Checking block size 256.
0.531524 0.531524
0.600285 0.600285
0.458787 0.458787
0.296680 0.296680
-0.911627 -0.911627
Checking block size 512.
0.531524 0.531524
0.600285 0.600285
0.458787 0.458787
0.296680 0.296680
-0.911627 -0.911627
Checking block size 1024.
0.531524 0.531524
0.600285 0.600285
0.458787 0.458787
0.296680 0.296680
-0.911627 -0.911627
All results match. Starting benchmarks.

block_size   32 time 3.2461 ms
block_size   64 time 1.7509 ms
block_size  128 time 1.7374 ms
block_size  256 time 1.7441 ms
block_size  512 time 1.8092 ms
block_size 1024 time 2.0443 ms

- [ ] WIP: CPU kernel - [ ] Cuda kernel

- [ ] WIP cuda version

- kernel 1 is tested - build ``` make repkv_backward /usr/local/cuda/bin/nvcc -O3 --use_fast_math --generate-code arch=compute_80,code=[compute_80,sm_80] -lcublas -lcublasLt -std=c++17 repkv_backward.cu -o repkv_backward ``` - test run on A30 ``` Using kernel 1 Checking block size 32. 0.531524 0.531524 0.600285 0.600285 0.458787 0.458787 0.296680 0.296680 -0.911627 -0.911627 Checking block size 64. 0.531524 0.531524 0.600285 0.600285 0.458787 0.458787 0.296680 0.296680 -0.911627 -0.911627 Checking block size 128. 0.531524 0.531524 0.600285 0.600285 0.458787 0.458787 0.296680 0.296680 -0.911627 -0.911627 Checking block size 256. 0.531524 0.531524 0.600285 0.600285 0.458787 0.458787 0.296680 0.296680 -0.911627 -0.911627 Checking block size 512. 0.531524 0.531524 0.600285 0.600285 0.458787 0.458787 0.296680 0.296680 -0.911627 -0.911627 Checking block size 1024. 0.531524 0.531524 0.600285 0.600285 0.458787 0.458787 0.296680 0.296680 -0.911627 -0.911627 All results match. Starting benchmarks. block_size 32 time 3.2461 ms block_size 64 time 1.7509 ms block_size 128 time 1.7374 ms block_size 256 time 1.7441 ms block_size 512 time 1.8092 ms block_size 1024 time 2.0443 ms ```

insop · 2024-09-26T00:45:11Z

@gordicaleksa , @ngc92, @ademeure, @karpathy

PTAL, repkv_backward cpu and cuda kernels are updated and tested.
I will update repkv.cuh once this PR is merged.

DRAFT: Adding backward kernel for repkv

45401b4

- [ ] WIP: CPU kernel - [ ] Cuda kernel

insop marked this pull request as draft September 22, 2024 03:46

insop added 3 commits September 21, 2024 21:21

CPU version tested

080e57f

- [ ] WIP cuda version

Put cuda kernel caller placeholder

6c68657

WIP updating cuda kernel

ad46043

insop changed the title ~~DRAFT: Adding backward kernel for repkv on llama3 branch (cuda-mode-irl)~~ DRAFT: Adding backward kernel for repkv on llama3 branch (cudamode-irl) Sep 22, 2024

insop added 7 commits September 22, 2024 00:26

minor clean up

42d09e8

Add minor change

fcc3466

wip

de9c817

Merge remote-tracking branch 'upstream/llama3' into insop/llama3

8336d2a

Merge remote-tracking branch 'upstream/llama3' into insop/llama3

8874c2c

Merge branch 'insop/llama3_wip' into insop/llama3

3e5134d

insop changed the title ~~DRAFT: Adding backward kernel for repkv on llama3 branch (cudamode-irl)~~ Adding backward kernel for repkv on llama3 branch (cudamode-irl) Sep 26, 2024

insop marked this pull request as ready for review September 26, 2024 00:45

insop added 3 commits September 26, 2024 11:42

Merge remote-tracking branch 'upstream/llama3' into insop/llama3

a2b66f1

Merge remote-tracking branch 'upstream/llama3' into insop/llama3

cbf53e3

Update RoPE naming

01c2895

karpathy merged commit c8b348e into karpathy:llama3 Sep 27, 2024

insop mentioned this pull request Sep 28, 2024

Add repkv_backward_kernel2 and repkv_kernel2 (llama3 branch) #771

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Adding backward kernel for repkv on `llama3` branch (cudamode-irl) #764

Adding backward kernel for repkv on `llama3` branch (cudamode-irl) #764

insop commented Sep 22, 2024 •

edited

Loading

insop commented Sep 26, 2024 •

edited

Loading

Adding backward kernel for repkv on llama3 branch (cudamode-irl) #764

Adding backward kernel for repkv on llama3 branch (cudamode-irl) #764

Conversation

insop commented Sep 22, 2024 • edited Loading

insop commented Sep 26, 2024 • edited Loading

Adding backward kernel for repkv on `llama3` branch (cudamode-irl) #764

Adding backward kernel for repkv on `llama3` branch (cudamode-irl) #764

insop commented Sep 22, 2024 •

edited

Loading

insop commented Sep 26, 2024 •

edited

Loading