[Encoder Decoder] Add flash_attn kernel support for encoder-decoder models #9559

sroy745 · 2024-10-21T18:37:35Z

This PR adds support for flash attention kernel for encoder decoder models. For encoder-decoder models with dtype=bfloat16 the default backend choice is now FlashAttention instead of XFormers. However for llama-3.2-11b-vision-instruct we still use the Xformers backend even with dtype=bfloat16 because the model implementation (models/mllama.py) has dependency on PagedAttention.

For adding this support, we make the following changes in this pr

Updated flash_attn.py to add support for encoder-decoder models. Also updated the tests in tests/kernels/test_encoder_decoder.py to test FlashAttention backend along with the existing XFormers backend.
Updated test_bart.py , test_florence2.py and encoder_decoder/test_e2e_correctness.py to run with both backends.
Moved some methods from xformers.py to backend/utils.py so that they can be reused in both xformers.py and flash_attn.py
Updated the checks in worker/enc_dec_model_runner.py to now check that the backend is either FlashAttention or XFormers instead of only XFormers as we do currently.
Updated models/bart.py to invoke attention.forward with query of shape [num_tokens, hidden_size]. Currently it was invoking the forward with a query of shape [num_tokens, num_heads, head_size] which is not default.

#7366

Pull from head

sroy745 · 2024-11-01T00:57:37Z

Thanks for the review. Addressed comments. PTAL

mergify · 2024-11-01T04:57:15Z

This pull request has merge conflicts that must be resolved before it can be
merged. @sroy745 please rebase it. https://docs.github.com/en/pull-requests/collaborating-with-pull-requests/working-with-forks/syncing-a-fork

heheda12345

LGTM. Thanks for your hardwork on this. Looking forward for the follow-up PRs for test_encoder_decoder_attention and mllama support.

Also CC @WoosukKwon. You may need to sync this PR to v1 later.

sroy745 · 2024-11-01T19:32:31Z

@ywang96 PTAL when you get a chance. PR has been LG'ed by @heheda12345 , is synced to head and all tests are passing.

mergify · 2024-11-01T23:22:31Z

This pull request has merge conflicts that must be resolved before it can be
merged. @sroy745 please rebase it. https://docs.github.com/en/pull-requests/collaborating-with-pull-requests/working-with-forks/syncing-a-fork

ywang96

Thanks for this great work!

…odels (#9559)

…odels (vllm-project#9559)

…odels (vllm-project#9559) Signed-off-by: Linkun Chen <[email protected]>

…odels (vllm-project#9559) Signed-off-by: Richard Liu <[email protected]>

…odels (vllm-project#9559)

…odels (#9559)

…odels (vllm-project#9559)

…odels (vllm-project#9559) Signed-off-by: Loc Huynh <[email protected]>

…odels (vllm-project#9559) Signed-off-by: Sumit Dubey <[email protected]>

sroy745 added 30 commits May 28, 2024 20:39

Merge pull request #1 from vllm-project/main

5650b95

Pull from head

Merge branch 'vllm-project:main' into main

8f36146

Merge branch 'vllm-project:main' into main

9e75057

Merge branch 'vllm-project:main' into main

db2c679

Merge branch 'vllm-project:main' into main

8d7512c

Merge branch 'vllm-project:main' into main

1473f74

Merge branch 'vllm-project:main' into main

4013e1a

Merge branch 'vllm-project:main' into main

2dbdd78

Merge branch 'vllm-project:main' into main

b3575e9

Merge branch 'vllm-project:main' into main

94b0d43

Merge branch 'vllm-project:main' into main

fa8fedf

Merge branch 'vllm-project:main' into main

6ed96b4

Merge branch 'vllm-project:main' into main

b71c533

Merge branch 'vllm-project:main' into main

57babef

Merge branch 'vllm-project:main' into main

4b19bac

Merge branch 'vllm-project:main' into main

eb7a1c4

Merge branch 'vllm-project:main' into main

7e2c87e

Merge branch 'vllm-project:main' into main

6212d5f

Merge branch 'vllm-project:main' into main

5491438

Merge branch 'vllm-project:main' into main

68e080a

Merge branch 'vllm-project:main' into main

55e4332

Merge branch 'vllm-project:main' into main

532eb48

Merge branch 'vllm-project:main' into main

7cea056

Merge branch 'vllm-project:main' into main

185e056

Merge branch 'vllm-project:main' into main

e2be95f

Merge branch 'vllm-project:main' into main

2ed5473

Merge branch 'vllm-project:main' into main

efa4714

Merge branch 'vllm-project:main' into main

fb87d34

Merge branch 'vllm-project:main' into main

5419e49

Merge branch 'vllm-project:main' into main

9ba12f8

Comments

cc58ebe

mergify bot added the needs-rebase label Nov 1, 2024

heheda12345 approved these changes Nov 1, 2024

View reviewed changes

Merge branch 'main' into sroy-vllm-encdec-flash

5785714

mergify bot removed the needs-rebase label Nov 1, 2024

sroy745 and others added 3 commits November 1, 2024 08:46

Merge branch 'vllm-project:main' into main

c9a3f00

Comments

834572f

Merge remote-tracking branch 'origin/main' into sroy-vllm-encdec-flash

15dc714

mergify bot added the needs-rebase label Nov 1, 2024

Merge branch 'main' into sroy-vllm-encdec-flash

21946be

mergify bot removed the needs-rebase label Nov 1, 2024

sroy745 added 2 commits November 2, 2024 01:10

Dummy

2264a62

Format

7ca0ab7

ywang96 approved these changes Nov 2, 2024

View reviewed changes

ywang96 merged commit a78dd33 into vllm-project:main Nov 2, 2024
61 of 62 checks passed

DarkLight1337 pushed a commit that referenced this pull request Nov 2, 2024

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder m…

4003ce4

…odels (#9559)

lk-chen pushed a commit to lk-chen/vllm that referenced this pull request Nov 4, 2024

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder m…

a7c9765

…odels (vllm-project#9559)

lk-chen pushed a commit to lk-chen/vllm that referenced this pull request Nov 4, 2024

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder m…

492ee3c

…odels (vllm-project#9559) Signed-off-by: Linkun Chen <[email protected]>

richardsliu pushed a commit to richardsliu/vllm that referenced this pull request Nov 4, 2024

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder m…

816f845

…odels (vllm-project#9559) Signed-off-by: Richard Liu <[email protected]>

bigPYJ1151 pushed a commit to bigPYJ1151/vllm that referenced this pull request Nov 5, 2024

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder m…

37bba34

…odels (vllm-project#9559)

DarkLight1337 pushed a commit that referenced this pull request Nov 5, 2024

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder m…

3c0bcd6

…odels (#9559)

DarkLight1337 pushed a commit that referenced this pull request Nov 5, 2024

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder m…

df27395

…odels (#9559)

hissu-hyvarinen pushed a commit to ROCm/vllm that referenced this pull request Nov 6, 2024

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder m…

43d0f49

…odels (vllm-project#9559)

heheda12345 mentioned this pull request Nov 6, 2024

[Encoder Decoder] Update Mllama to run with both FlashAttention and XFormers #9982

Merged

JC1DA pushed a commit to JC1DA/vllm that referenced this pull request Nov 11, 2024

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder m…

4e317f0

…odels (vllm-project#9559) Signed-off-by: Loc Huynh <[email protected]>

sumitd2 pushed a commit to sumitd2/vllm that referenced this pull request Nov 14, 2024

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder m…

27be13e

…odels (vllm-project#9559) Signed-off-by: Sumit Dubey <[email protected]>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder models #9559

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder models #9559

sroy745 commented Oct 21, 2024 •

edited

Loading

sroy745 commented Nov 1, 2024

mergify bot commented Nov 1, 2024

heheda12345 left a comment

sroy745 commented Nov 1, 2024

mergify bot commented Nov 1, 2024

ywang96 left a comment

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder models #9559

[Encoder Decoder] Add flash_attn kernel support for encoder-decoder models #9559

Conversation

sroy745 commented Oct 21, 2024 • edited Loading

sroy745 commented Nov 1, 2024

mergify bot commented Nov 1, 2024

heheda12345 left a comment

Choose a reason for hiding this comment

sroy745 commented Nov 1, 2024

mergify bot commented Nov 1, 2024

ywang96 left a comment

Choose a reason for hiding this comment

sroy745 commented Oct 21, 2024 •

edited

Loading