Add cache_4bit option for ExLlamaV2 #5645

oobabooga · 2024-03-07T02:00:49Z

On a small test llama-2-7b in 16-bit precision:

Cache type	VRAM
16-bit	15162MiB
`--cache_8bit`	14202MiB
`--cache_4bit`	13882MiB

Add cache_4bit option for ExLlamaV2

605ddd5

oobabooga merged commit 2ec1d96 into dev Mar 7, 2024

oobabooga deleted the cache_4bit branch March 7, 2024 02:03

PoetOnTheRun pushed a commit to PoetOnTheRun/text-generation-webui that referenced this pull request Oct 22, 2024

Add cache_4bit option for ExLlamaV2 (oobabooga#5645)

d35ca5f

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add cache_4bit option for ExLlamaV2 #5645

Add cache_4bit option for ExLlamaV2 #5645

oobabooga commented Mar 7, 2024

Add cache_4bit option for ExLlamaV2 #5645

Add cache_4bit option for ExLlamaV2 #5645

Conversation

oobabooga commented Mar 7, 2024