Enables ZeRO-3 inference #1514

jeffra · 2021-11-02T21:03:44Z

This enables a ZeRO-3 inference support, this means no optimizer is specified. This supports ZeRO-3 w. multiple GPUs and also supports ZeRO-3 w. parameter CPU offload.

This enables initial functional support, we have not fully evaluated performance and all memory reduction scenarios. More PRs to come I imagine :)

… jeffra/no_optim

deepspeed/runtime/zero/partition_parameters.py

… jeffra/no_optim

stas00 · 2021-11-17T03:29:50Z

It definitely uses less GPU memory w/ offload configured as compared to not.

2 gpus, w/ offload:

export BS=16; rm -r output_dir; PYTHONPATH=src USE_TF=0 deepspeed --num_gpus=2 examples/pytorch/translation/run_translation.py --model_name_or_path t5-small --output_dir output_dir --adam_eps 1e-06 --evaluation_strategy=steps --do_eval --label_smoothing 0.1 --learning_rate 3e-5 --logging_first_step --logging_steps 500 --max_source_length 128 --max_target_length 128  --overwrite_output_dir --per_device_eval_batch_size $BS --predict_with_generate --sortish_sampler --source_lang en --target_lang ro --dataset_name wmt16 --dataset_config "ro-en" --source_prefix "translate English to Romanian: " --val_max_target_length 128 --warmup_steps 50 --max_eval_samples 50 --deepspeed tests/deepspeed/ds_config_zero3.json  --fp16 --skip_memory_metrics 0

  before_init_mem_cpu       =     5552MB
  before_init_mem_gpu       =       32MB
  eval_bleu                 =    28.1872
  eval_gen_len              =      34.88
  eval_loss                 =     3.6001
  eval_mem_cpu_alloc_delta  =     2175MB
  eval_mem_cpu_peaked_delta =        0MB
  eval_mem_gpu_alloc_delta  =        0MB
  eval_mem_gpu_peaked_delta =      264MB
  eval_runtime              = 0:00:16.08
  eval_samples              =         50
  eval_samples_per_second   =      3.108
  eval_steps_per_second     =      0.124
  init_mem_cpu_alloc_delta  =        5MB
  init_mem_cpu_peaked_delta =        0MB
  init_mem_gpu_alloc_delta  =        0MB
  init_mem_gpu_peaked_delta =        0MB

w/o offload (same cmd and config but changed "device": "none",)

  before_init_mem_cpu       =     5428MB
  before_init_mem_gpu       =      106MB
  eval_bleu                 =    28.1872
  eval_gen_len              =      34.88
  eval_loss                 =     3.6001
  eval_mem_cpu_alloc_delta  =      668MB
  eval_mem_cpu_peaked_delta =        0MB
  eval_mem_gpu_alloc_delta  =      332MB
  eval_mem_gpu_peaked_delta =      264MB
  eval_runtime              = 0:00:30.00
  eval_samples              =         50
  eval_samples_per_second   =      1.666
  eval_steps_per_second     =      0.067
  init_mem_cpu_alloc_delta  =        3MB
  init_mem_cpu_peaked_delta =        0MB
  init_mem_gpu_alloc_delta  =        0MB
  init_mem_gpu_peaked_delta =        0MB

the change was:

--- a/tests/deepspeed/ds_config_zero3.json
+++ b/tests/deepspeed/ds_config_zero3.json
@@ -30,11 +30,11 @@
     "zero_optimization": {
         "stage": 3,
         "offload_optimizer": {
-            "device": "cpu",
+            "device": "none",
             "pin_memory": true
         },
         "offload_param": {
-            "device": "cpu",
+            "device": "none",
             "pin_memory": true
         },
         "overlap_comm": true,

add initial support for no optimizer init for Z3

bdb9068

jeffra changed the title ~~Add support for no optimizer init for Z3~~ [WIP] Add support for no optimizer init for Z3 Nov 2, 2021

stas00 mentioned this pull request Nov 2, 2021

[deepspeed] zero inference huggingface/transformers#14253

Merged

3 tasks

jeffra added 4 commits November 2, 2021 14:21

add guards and clean-up

054565b

Merge branch 'master' into jeffra/no_optim

d4b7c86

add docstring to dummy optim

7c2075a

Merge branch 'jeffra/no_optim' of github.com:microsoft/DeepSpeed into…

c3f594a

… jeffra/no_optim

jeffra marked this pull request as ready for review November 2, 2021 21:27

jeffra requested review from awan-10, cli99, conglongli, eltonzheng, minjiaz, niumanar, RezaYazdaniAminabadi, samyam, ShadenSmith and tjruwase as code owners November 2, 2021 21:27

jeffra changed the title ~~[WIP] Add support for no optimizer init for Z3~~ Allow ZeRO-3 to work without an optimizer Nov 2, 2021

jeffra changed the title ~~Allow ZeRO-3 to work without an optimizer~~ Enables ZeRO-3 inference Nov 2, 2021

jeffra added 9 commits November 2, 2021 14:56

Merge branch 'master' into jeffra/no_optim

e26bc31

fix regression introduced in SimpleModel refactor

dfdf025

Merge branch 'jeffra/no_optim' of github.com:microsoft/DeepSpeed into…

f091fd8

… jeffra/no_optim

Merge branch 'master' into jeffra/no_optim

901c88a

all environ var for test port

28ed372

Merge branch 'jeffra/no_optim' of github.com:microsoft/DeepSpeed into…

569747d

… jeffra/no_optim

Merge branch 'master' into jeffra/no_optim

d92c9a8

align remote_device/pin_memory in ds config with zero.Init

16f32f6

update test to use config

2fe7901

tjruwase reviewed Nov 16, 2021

View reviewed changes

deepspeed/runtime/zero/partition_parameters.py Outdated Show resolved Hide resolved

tjruwase approved these changes Nov 16, 2021

View reviewed changes

jeffra added 5 commits November 16, 2021 12:03

Merge branch 'master' into jeffra/no_optim

da953d3

address comment

498af69

Merge branch 'jeffra/no_optim' of github.com:microsoft/DeepSpeed into…

3484b6f

… jeffra/no_optim

fix new lines that broke diff

28988a3

Merge branch 'master' into jeffra/no_optim

60f284d

jeffra added 3 commits November 18, 2021 12:48

skip param offload test on older torch

a7140c1

Merge branch 'master' into jeffra/no_optim

346e85e

fix import typo

3d21b50

jeffra enabled auto-merge (squash) November 18, 2021 22:47

jeffra merged commit 2332cb3 into master Nov 19, 2021

SeanNaren mentioned this pull request Nov 19, 2021

Remove optimizer for DeepSpeed inference Lightning-AI/pytorch-lightning#10640

Closed

jeffra deleted the jeffra/no_optim branch January 31, 2022 18:38

rohitgr7 mentioned this pull request Oct 21, 2022

Avoid initializing optimizers during deepspeed evaluation Lightning-AI/pytorch-lightning#14944

Merged

12 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Enables ZeRO-3 inference #1514

Enables ZeRO-3 inference #1514

jeffra commented Nov 2, 2021 •

edited

Loading

stas00 commented Nov 17, 2021 •

edited

Loading

Enables ZeRO-3 inference #1514

Enables ZeRO-3 inference #1514

Conversation

jeffra commented Nov 2, 2021 • edited Loading

stas00 commented Nov 17, 2021 • edited Loading

jeffra commented Nov 2, 2021 •

edited

Loading

stas00 commented Nov 17, 2021 •

edited

Loading