docs/tutorial.o42638672

[2024-07-15 09:36:01,205] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[2024-07-15 09:36:03,972] [INFO] [runner.py:568:main] cmd = mpirun -n 36 -hostfile hostfile_42638672 --mca btl ^openib --mca btl_tcp_if_include eth0 -x UCX_TLS=tcp -x PYTHONPATH=/home/acf15429bz/deepspeed-abci-tutorial /home/acf15429bz/deepspeed-abci-tutorial/work/bin/python3 -u train.py --config ./configs/default.yaml --deepspeed --deepspeed_config ./configs/ds_config.json
[2024-07-15 09:36:09,051] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:09,052] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:09,069] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:09,074] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[2024-07-15 09:36:12,352] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:12,352] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:12,352] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:12,352] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:12,352] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:12,352] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:12,352] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:12,352] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
--------------------------------------------------------------------------
WARNING: An invalid value was given for btl_tcp_if_include.  This
value will be ignored.

  Local host: g0137
  Value:      eth0
  Message:    Unknown interface name
--------------------------------------------------------------------------
[2024-07-15 09:36:14,760] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,760] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,764] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,765] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,833] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,833] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,834] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,834] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,872] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,888] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,888] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,889] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,891] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,891] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,893] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,894] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,912] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,913] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,919] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,919] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,954] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,955] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,955] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:14,955] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:15,047] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:15,047] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:15,051] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:15,052] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:15,063] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:15,063] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:15,066] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-07-15 09:36:15,067] [INFO] [real_accelerator.py:203:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m Please specify the CUTLASS repo directory as environment variable $CUTLASS_PATH
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m NVIDIA Inference is only supported on Ampere and newer architectures
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[93m [WARNING] [0m sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0
[93m [WARNING] [0m using untested triton version (2.0.0), only 1.0.0 is known to be compatible
[g0137.abci.local:265435] 3 more processes have sent help message help-mpi-btl-tcp.txt / invalid if_inexclude
[g0137.abci.local:265435] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages
[2024-07-15 09:36:18,878] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:18,878] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:18,878] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:18,878] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:18,878] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:18,878] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:18,878] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:18,878] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,025] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,025] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,025] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,025] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,025] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,026] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,027] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,025] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,026] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,026] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,027] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,026] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,026] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,027] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,026] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,027] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,053] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,053] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,053] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,053] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,053] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,053] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,053] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,053] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,072] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,072] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,073] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,072] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,073] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,073] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,073] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,073] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,117] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,117] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,117] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,117] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,117] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,117] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,117] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,117] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,160] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,160] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,160] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,160] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,160] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,160] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,160] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,160] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,296] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,296] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,296] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,296] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,296] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,296] [INFO] [comm.py:637:init_distributed] cdb=None
[2024-07-15 09:36:19,297] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:19,297] [INFO] [comm.py:652:init_distributed] Not using the DeepSpeed or dist launchers, attempting to detect MPI environment...
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=2, local_rank=2, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=3, local_rank=3, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=0, local_rank=0, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:668:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=1, local_rank=1, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=27, local_rank=3, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=10, local_rank=2, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=21, local_rank=1, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=12, local_rank=0, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=31, local_rank=3, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=17, local_rank=1, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=4, local_rank=0, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=34, local_rank=2, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=26, local_rank=2, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=11, local_rank=3, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=20, local_rank=0, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=14, local_rank=2, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=28, local_rank=0, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=16, local_rank=0, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=7, local_rank=3, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=33, local_rank=1, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=25, local_rank=1, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=8, local_rank=0, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=22, local_rank=2, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=13, local_rank=1, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=30, local_rank=2, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=19, local_rank=3, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=6, local_rank=2, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=35, local_rank=3, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=24, local_rank=0, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=9, local_rank=1, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=23, local_rank=3, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=15, local_rank=3, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=29, local_rank=1, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=18, local_rank=2, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=5, local_rank=1, world_size=36, master_addr=10.1.5.1, master_port=29500
[2024-07-15 09:36:21,276] [INFO] [comm.py:702:mpi_discovery] Discovered MPI settings of world_rank=32, local_rank=0, world_size=36, master_addr=10.1.5.1, master_port=29500
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:426] [c10d] The server socket cannot be initialized on [::]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[W socket.cpp:601] [c10d] The client socket cannot be initialized to connect to [g0137-eth0]:29500 (errno: 97 - Address family not supported by protocol).
[g0137.abci.local:265435] 32 more processes have sent help message help-mpi-btl-tcp.txt / invalid if_inexclude
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
[2024-07-15 09:36:28,864] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed info: version=0.14.4, git-hash=unknown, git-branch=unknown
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:208: UserWarning: The parameter 'pretrained' is deprecated since 0.13 and may be removed in the future, please use 'weights' instead.
  warnings.warn(
/home/acf15429bz/deepspeed-abci-tutorial/work/lib/python3.11/site-packages/torchvision/models/_utils.py:223: UserWarning: Arguments other than a weight enum or `None` for 'weights' are deprecated since 0.13 and may be removed in the future. The current behavior is equivalent to passing `weights=None`.
  warnings.warn(msg)
[2024-07-15 09:36:33,571] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed Flops Profiler Enabled: False
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Emitting ninja build file /home/acf15429bz/.cache/torch_extensions/py311_cu117/cpu_adam/build.ninja...
Building extension module cpu_adam...
Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
ninja: no work to do.
Loading extension module cpu_adam...
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.615079641342163 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.570808172225952 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.553316116333008 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Time to load cpu_adam op: 2.6339046955108643 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.6396584510803223 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
[2024-07-15 09:36:37,556] [INFO] [logging.py:96:log_dist] [Rank 0] Using DeepSpeed Optimizer param name adamw as basic optimizer
[2024-07-15 09:36:37,556] [INFO] [logging.py:96:log_dist] [Rank 0] Removing param_group that has no 'params' in the basic Optimizer
Loading extension module cpu_adam...
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.5676300525665283 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
[2024-07-15 09:36:37,560] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed Basic Optimizer = DeepSpeedCPUAdam
[2024-07-15 09:36:37,560] [INFO] [utils.py:56:is_zero_supported_optimizer] Checking ZeRO support for optimizer=DeepSpeedCPUAdam type=<class 'deepspeed.ops.adam.cpu_adam.DeepSpeedCPUAdam'>
[2024-07-15 09:36:37,560] [INFO] [logging.py:96:log_dist] [Rank 0] Creating torch.float16 ZeRO stage 2 optimizer
[2024-07-15 09:36:37,560] [INFO] [stage_1_and_2.py:148:__init__] Reduce bucket size 200000000
[2024-07-15 09:36:37,560] [INFO] [stage_1_and_2.py:149:__init__] Allgather bucket size 200000000
[2024-07-15 09:36:37,560] [INFO] [stage_1_and_2.py:150:__init__] CPU Offload: True
[2024-07-15 09:36:37,560] [INFO] [stage_1_and_2.py:151:__init__] Round robin gradient partitioning: False
Time to load cpu_adam op: 2.582451343536377 seconds
Time to load cpu_adam op: 2.59900164604187 seconds
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.58979868888855 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Emitting ninja build file /home/acf15429bz/.cache/torch_extensions/py311_cu117/cpu_adam/build.ninja...
Building extension module cpu_adam...
Allowing ninja to set a default number of workers... (overridable by setting the environment variable MAX_JOBS=N)
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
Using /home/acf15429bz/.cache/torch_extensions/py311_cu117 as PyTorch extensions root...
ninja: no work to do.
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.6590030193328857 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.7650253772735596 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Time to load cpu_adam op: 2.624408721923828 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.674992561340332 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.8139030933380127 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.7348647117614746 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.8185079097747803 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Time to load cpu_adam op: 2.692986488342285 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.7065017223358154 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Time to load cpu_adam op: 2.70652437210083 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.6367530822753906 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.6570627689361572 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.7025580406188965 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Loading extension module cpu_adam...
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.6693649291992188 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Time to load cpu_adam op: 2.666043281555176 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Time to load cpu_adam op: 2.8426380157470703 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.846621036529541 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.663794994354248 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.852766990661621 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.7389557361602783 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.8656444549560547 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.7641634941101074 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.7719104290008545 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Time to load cpu_adam op: 2.7597382068634033 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.6943557262420654 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.6954472064971924 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
Loading extension module cpu_adam...
Time to load cpu_adam op: 2.780877113342285 seconds
Adam Optimizer #0 is created with AVX512 arithmetic capability.
Config: alpha=0.001000, betas=(0.900000, 0.999000), weight_decay=0.050000, adam_w=1
[2024-07-15 09:36:37,882] [INFO] [utils.py:781:see_memory_usage] Before initializing optimizer states
[2024-07-15 09:36:37,892] [INFO] [utils.py:782:see_memory_usage] MA 0.05 GB         Max_MA 0.05 GB         CA 0.07 GB         Max_CA 0 GB 
[2024-07-15 09:36:37,892] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 17.63 GB, percent = 4.7%
[2024-07-15 09:36:38,079] [INFO] [utils.py:781:see_memory_usage] After initializing optimizer states
[2024-07-15 09:36:38,079] [INFO] [utils.py:782:see_memory_usage] MA 0.05 GB         Max_MA 0.05 GB         CA 0.07 GB         Max_CA 0 GB 
[2024-07-15 09:36:38,079] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 17.84 GB, percent = 4.7%
[2024-07-15 09:36:38,080] [INFO] [stage_1_and_2.py:543:__init__] optimizer state initialized
[2024-07-15 09:36:38,240] [INFO] [utils.py:781:see_memory_usage] After initializing ZeRO optimizer
[2024-07-15 09:36:38,240] [INFO] [utils.py:782:see_memory_usage] MA 0.05 GB         Max_MA 0.05 GB         CA 0.07 GB         Max_CA 0 GB 
[2024-07-15 09:36:38,240] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 17.9 GB, percent = 4.8%
[2024-07-15 09:36:38,242] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed Final Optimizer = DeepSpeedZeroOptimizer
[2024-07-15 09:36:38,242] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed using configured LR scheduler = WarmupCosineLR
[2024-07-15 09:36:38,242] [INFO] [logging.py:96:log_dist] [Rank 0] DeepSpeed LR Scheduler = <deepspeed.runtime.lr_schedules.WarmupCosineLR object at 0x14f59e20f690>
[2024-07-15 09:36:38,242] [INFO] [logging.py:96:log_dist] [Rank 0] step=0, skipped=0, lr=[0.001], mom=[[0.9, 0.999]]
[2024-07-15 09:36:38,242] [INFO] [config.py:997:print] DeepSpeedEngine configuration:
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   activation_checkpointing_config  {
    "partition_activations": false, 
    "contiguous_memory_optimization": false, 
    "cpu_checkpointing": false, 
    "number_checkpoints": null, 
    "synchronize_checkpoint_boundary": false, 
    "profile": false
}
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   aio_config ................... {'block_size': 1048576, 'queue_depth': 8, 'thread_count': 1, 'single_submit': False, 'overlap_events': True}
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   amp_enabled .................. False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   amp_params ................... False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   autotuning_config ............ {
    "enabled": false, 
    "start_step": null, 
    "end_step": null, 
    "metric_path": null, 
    "arg_mappings": null, 
    "metric": "throughput", 
    "model_info": null, 
    "results_dir": "autotuning_results", 
    "exps_dir": "autotuning_exps", 
    "overwrite": true, 
    "fast": true, 
    "start_profile_step": 3, 
    "end_profile_step": 5, 
    "tuner_type": "gridsearch", 
    "tuner_early_stopping": 5, 
    "tuner_num_trials": 50, 
    "model_info_path": null, 
    "mp_size": 1, 
    "max_train_batch_size": null, 
    "min_train_batch_size": 1, 
    "max_train_micro_batch_size_per_gpu": 1.024000e+03, 
    "min_train_micro_batch_size_per_gpu": 1, 
    "num_tuning_micro_batch_sizes": 3
}
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   bfloat16_enabled ............. False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   bfloat16_immediate_grad_update  False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   checkpoint_parallel_write_pipeline  False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   checkpoint_tag_validation_enabled  True
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   checkpoint_tag_validation_fail  False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   comms_config ................. <deepspeed.comm.config.DeepSpeedCommsConfig object at 0x14f552965890>
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   communication_data_type ...... None
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   compression_config ........... {'weight_quantization': {'shared_parameters': {'enabled': False, 'quantizer_kernel': False, 'schedule_offset': 0, 'quantize_groups': 1, 'quantize_verbose': False, 'quantization_type': 'symmetric', 'quantize_weight_in_forward': False, 'rounding': 'nearest', 'fp16_mixed_quantize': False, 'quantize_change_ratio': 0.001}, 'different_groups': {}}, 'activation_quantization': {'shared_parameters': {'enabled': False, 'quantization_type': 'symmetric', 'range_calibration': 'dynamic', 'schedule_offset': 1000}, 'different_groups': {}}, 'sparse_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'row_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'head_pruning': {'shared_parameters': {'enabled': False, 'method': 'topk', 'schedule_offset': 1000}, 'different_groups': {}}, 'channel_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'layer_reduction': {'enabled': False}}
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   curriculum_enabled_legacy .... False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   curriculum_params_legacy ..... False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   data_efficiency_config ....... {'enabled': False, 'seed': 1234, 'data_sampling': {'enabled': False, 'num_epochs': 1000, 'num_workers': 0, 'curriculum_learning': {'enabled': False}}, 'data_routing': {'enabled': False, 'random_ltd': {'enabled': False, 'layer_token_lr_schedule': {'enabled': False}}}}
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   data_efficiency_enabled ...... False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   dataloader_drop_last ......... False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   disable_allgather ............ False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   dump_state ................... False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   dynamic_loss_scale_args ...... None
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   eigenvalue_enabled ........... False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   eigenvalue_gas_boundary_resolution  1
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   eigenvalue_layer_name ........ bert.encoder.layer
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   eigenvalue_layer_num ......... 0
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   eigenvalue_max_iter .......... 100
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   eigenvalue_stability ......... 1e-06
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   eigenvalue_tol ............... 0.01
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   eigenvalue_verbose ........... False
[2024-07-15 09:36:38,243] [INFO] [config.py:1001:print]   elasticity_enabled ........... False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   flops_profiler_config ........ {
    "enabled": false, 
    "recompute_fwd_factor": 0.0, 
    "profile_step": 1, 
    "module_depth": -1, 
    "top_modules": 1, 
    "detailed": true, 
    "output_file": null
}
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   fp16_auto_cast ............... True
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   fp16_enabled ................. True
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   fp16_master_weights_and_gradients  False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   global_rank .................. 0
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   grad_accum_dtype ............. None
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   gradient_accumulation_steps .. 1
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   gradient_clipping ............ 1
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   gradient_predivide_factor .... 1.0
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   graph_harvesting ............. False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   hybrid_engine ................ enabled=False max_out_tokens=512 inference_tp_size=1 release_inference_cache=False pin_parameters=True tp_gather_partition_size=8
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   initial_dynamic_scale ........ 65536
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   load_universal_checkpoint .... False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   loss_scale ................... 0
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   memory_breakdown ............. False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   mics_hierarchial_params_gather  False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   mics_shard_size .............. -1
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   monitor_config ............... tensorboard=TensorBoardConfig(enabled=False, output_path='', job_name='DeepSpeedJobName') comet=CometConfig(enabled=False, samples_log_interval=100, project=None, workspace=None, api_key=None, experiment_name=None, experiment_key=None, online=None, mode=None) wandb=WandbConfig(enabled=False, group=None, team=None, project='deepspeed') csv_monitor=CSVConfig(enabled=False, output_path='', job_name='DeepSpeedJobName') enabled=False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   nebula_config ................ {
    "enabled": false, 
    "persistent_storage_path": null, 
    "persistent_time_interval": 100, 
    "num_of_version_in_retention": 2, 
    "enable_nebula_load": true, 
    "load_path": null
}
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   optimizer_legacy_fusion ...... False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   optimizer_name ............... adamw
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   optimizer_params ............. {'lr': 0.001, 'betas': [0.9, 0.999], 'eps': 1e-08, 'weight_decay': 0.05}
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   pipeline ..................... {'stages': 'auto', 'partition': 'best', 'seed_layers': False, 'activation_checkpoint_interval': 0, 'pipe_partitioned': True, 'grad_partitioned': True}
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   pld_enabled .................. False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   pld_params ................... False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   prescale_gradients ........... False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   scheduler_name ............... WarmupCosineLR
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   scheduler_params ............. {'total_num_steps': 128, 'warmup_num_steps': 10}
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   seq_parallel_communication_data_type  torch.float32
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   sparse_attention ............. None
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   sparse_gradients_enabled ..... False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   steps_per_print .............. 10
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   timers_config ................ enabled=True synchronized=True
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   train_batch_size ............. 10080
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   train_micro_batch_size_per_gpu  280
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   use_data_before_expert_parallel_  False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   use_node_local_storage ....... False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   wall_clock_breakdown ......... False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   weight_quantization_config ... None
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   world_size ................... 36
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   zero_allow_untested_optimizer  False
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   zero_config .................. stage=2 contiguous_gradients=True reduce_scatter=True reduce_bucket_size=200000000 use_multi_rank_bucket_allreduce=True allgather_partitions=True allgather_bucket_size=200000000 overlap_comm=True load_from_fp32_weights=True elastic_checkpoint=False offload_param=None offload_optimizer=DeepSpeedZeroOffloadOptimizerConfig(device='cpu', nvme_path=None, buffer_count=4, pin_memory=True, pipeline=False, pipeline_read=False, pipeline_write=False, fast_init=False, ratio=1.0) sub_group_size=1,000,000,000 cpu_offload_param=None cpu_offload_use_pin_memory=None cpu_offload=None prefetch_bucket_size=50,000,000 param_persistence_threshold=100,000 model_persistence_threshold=sys.maxsize max_live_parameters=1,000,000,000 max_reuse_distance=1,000,000,000 gather_16bit_weights_on_model_save=False use_all_reduce_for_fetch_params=False stage3_gather_fp16_weights_on_model_save=False ignore_unused_parameters=True legacy_stage1=False round_robin_gradients=False zero_hpz_partition_size=1 zero_quantized_weights=False zero_quantized_nontrainable_weights=False zero_quantized_gradients=False mics_shard_size=-1 mics_hierarchical_params_gather=False memory_efficient_linear=True pipeline_loading_checkpoint=False override_module_apply=True
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   zero_enabled ................. True
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   zero_force_ds_cpu_optimizer .. True
[2024-07-15 09:36:38,244] [INFO] [config.py:1001:print]   zero_optimization_stage ...... 2
[2024-07-15 09:36:38,245] [INFO] [config.py:987:print_user_config]   json = {
    "train_batch_size": 1.008000e+04, 
    "train_micro_batch_size_per_gpu": 280, 
    "gradient_accumulation_steps": 1, 
    "optimizer": {
        "type": "AdamW", 
        "params": {
            "lr": 0.001, 
            "betas": [0.9, 0.999], 
            "eps": 1e-08, 
            "weight_decay": 0.05
        }
    }, 
    "scheduler": {
        "type": "WarmupCosineLR", 
        "params": {
            "total_num_steps": 128, 
            "warmup_num_steps": 10
        }
    }, 
    "gradient_clipping": 1, 
    "fp16": {
        "enabled": true, 
        "auto_cast": true
    }, 
    "zero_optimization": {
        "stage": 2, 
        "offload_optimizer": {
            "device": "cpu", 
            "pin_memory": true
        }, 
        "allgather_partitions": true, 
        "allgather_bucket_size": 2.000000e+08, 
        "overlap_comm": true, 
        "reduce_scatter": true, 
        "reduce_bucket_size": 2.000000e+08, 
        "contiguous_gradients": true
    }
}
wandb: Currently logged in as: lejelly. Use `wandb login --relogin` to force relogin
wandb: Tracking run with wandb version 0.17.4
wandb: Run data is saved locally in /home/acf15429bz/deepspeed-abci-tutorial/wandb/run-20240715_093639-12kzaa4y
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run tutorial
wandb: ⭐️ View project at https://wandb.ai/lejelly/deepspeed-abci-tutorial
wandb: 🚀 View run at https://wandb.ai/lejelly/deepspeed-abci-tutorial/runs/12kzaa4y
Total training dataset length: 1281167
start main loop: 1 epochs
[2024-07-15 09:36:47,707] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 4294967296, reducing to 2147483648
[2024-07-15 09:36:48,089] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 2147483648, reducing to 1073741824
[2024-07-15 09:36:53,127] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 1073741824, reducing to 536870912
[2024-07-15 09:36:53,508] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 536870912, reducing to 268435456
[2024-07-15 09:36:57,950] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 268435456, reducing to 134217728
[2024-07-15 09:36:58,330] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 134217728, reducing to 67108864
[2024-07-15 09:37:03,780] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 67108864, reducing to 33554432
[2024-07-15 09:37:04,160] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 33554432, reducing to 16777216
[2024-07-15 09:37:09,138] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 16777216, reducing to 8388608
[2024-07-15 09:37:09,518] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 8388608, reducing to 4194304
[2024-07-15 09:37:09,519] [INFO] [logging.py:96:log_dist] [Rank 0] step=10, skipped=10, lr=[0.001], mom=[[0.9, 0.999]]
[2024-07-15 09:37:09,520] [INFO] [timer.py:258:stop] epoch=0/micro_step=10/global_step=10, RunningAvgSamplesPerSec=3763.3210444206475, CurrSamplesPerSec=26494.491192229358, MemAllocated=0.15GB, MaxMemAllocated=12.35GB
[2024-07-15 09:37:13,937] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 4194304, reducing to 2097152
[2024-07-15 09:37:14,317] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 2097152, reducing to 1048576
[2024-07-15 09:37:20,411] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 1048576, reducing to 524288
[2024-07-15 09:37:20,794] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 524288, reducing to 262144
[2024-07-15 09:37:25,327] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 262144, reducing to 131072
[2024-07-15 09:37:25,707] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 131072, reducing to 65536
[2024-07-15 09:37:30,363] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 65536, reducing to 32768
[2024-07-15 09:37:30,749] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 32768, reducing to 16384
[2024-07-15 09:37:35,952] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 16384, reducing to 8192
[2024-07-15 09:37:36,353] [INFO] [logging.py:96:log_dist] [Rank 0] step=20, skipped=19, lr=[0.0], mom=[[0.9, 0.999]]
[2024-07-15 09:37:36,356] [INFO] [timer.py:258:stop] epoch=0/micro_step=20/global_step=20, RunningAvgSamplesPerSec=3759.408946824442, CurrSamplesPerSec=24988.81985932975, MemAllocated=0.15GB, MaxMemAllocated=12.35GB
[2024-07-15 09:38:00,584] [INFO] [logging.py:96:log_dist] [Rank 0] step=30, skipped=19, lr=[0.00099982282328117], mom=[[0.9, 0.999]]
[2024-07-15 09:38:00,588] [INFO] [timer.py:258:stop] epoch=0/micro_step=30/global_step=30, RunningAvgSamplesPerSec=3893.364588115452, CurrSamplesPerSec=25900.488266281616, MemAllocated=0.15GB, MaxMemAllocated=12.35GB
[2024-07-15 09:38:10,665] [INFO] [loss_scaler.py:183:update_scale] [deepspeed] OVERFLOW! Rank 0 Skipping step. Attempted loss scale: 8192, reducing to 4096
[2024-07-15 09:38:26,483] [INFO] [logging.py:96:log_dist] [Rank 0] step=40, skipped=20, lr=[0.0009823856960138172], mom=[[0.9, 0.999]]
[2024-07-15 09:38:26,487] [INFO] [timer.py:258:stop] epoch=0/micro_step=40/global_step=40, RunningAvgSamplesPerSec=3893.1007395113284, CurrSamplesPerSec=25900.773875854684, MemAllocated=0.15GB, MaxMemAllocated=12.35GB
[2024-07-15 09:38:51,242] [INFO] [logging.py:96:log_dist] [Rank 0] step=50, skipped=20, lr=[0.0009307839629928334], mom=[[0.9, 0.999]]
[2024-07-15 09:38:51,246] [INFO] [timer.py:258:stop] epoch=0/micro_step=50/global_step=50, RunningAvgSamplesPerSec=3929.007078704995, CurrSamplesPerSec=9651.933046946539, MemAllocated=0.15GB, MaxMemAllocated=12.35GB
[2024-07-15 09:39:16,860] [INFO] [logging.py:96:log_dist] [Rank 0] step=60, skipped=20, lr=[0.0008488308789914356], mom=[[0.9, 0.999]]
[2024-07-15 09:39:16,864] [INFO] [timer.py:258:stop] epoch=0/micro_step=60/global_step=60, RunningAvgSamplesPerSec=3930.0480755929984, CurrSamplesPerSec=7785.066115433121, MemAllocated=0.15GB, MaxMemAllocated=12.35GB
[2024-07-15 09:39:16,868] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint 60 is about to be saved!
[2024-07-15 09:39:16,875] [INFO] [logging.py:96:log_dist] [Rank 0] Saving model checkpoint: /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/mp_rank_00_model_states.pt
[2024-07-15 09:39:16,875] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/mp_rank_00_model_states.pt...
[2024-07-15 09:39:16,991] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/mp_rank_00_model_states.pt.
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_0_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_3_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_2_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_1_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_15_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_28_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_24_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_29_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_25_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_30_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_26_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_7_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_23_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_31_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_27_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_5_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_20_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_12_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_35_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_16_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_9_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_6_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_22_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_13_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_33_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_17_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_11_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_4_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_21_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_14_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_34_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_18_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_8_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_32_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_19_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,005] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_10_mp_rank_00_optim_states.pt...
[2024-07-15 09:39:17,017] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_0_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,019] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_1_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,019] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_1_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,019] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,020] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_3_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,020] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_3_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,020] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_2_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,020] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_2_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,020] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,020] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,020] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_15_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,021] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_15_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_12_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_18_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,021] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_18_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,021] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_12_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_19_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_29_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,021] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_19_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,021] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_29_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_28_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,021] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_28_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_13_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_14_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,021] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_13_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,021] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_14_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,021] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_30_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_30_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_31_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_31_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_17_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_17_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_16_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_16_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_21_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_21_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_23_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_23_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_8_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_8_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,022] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_0_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_10_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_10_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_11_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_6_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_4_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_24_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_24_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_11_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_6_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_20_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_27_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_4_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_20_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_27_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_25_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,022] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_26_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_25_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_22_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_22_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_34_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_34_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_26_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_9_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_7_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_9_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_7_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_32_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_5_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_5_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_32_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_35_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,023] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_33_mp_rank_00_optim_states.pt.
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_35_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,023] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/60/zero_pp_rank_33_mp_rank_00_optim_states.pt
[2024-07-15 09:39:17,024] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:17,024] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 60 is ready now!
[2024-07-15 09:39:43,800] [INFO] [logging.py:96:log_dist] [Rank 0] step=70, skipped=20, lr=[0.0007423012076228085], mom=[[0.9, 0.999]]
[2024-07-15 09:39:43,804] [INFO] [timer.py:258:stop] epoch=0/micro_step=70/global_step=70, RunningAvgSamplesPerSec=3904.7605479133586, CurrSamplesPerSec=4997.153763243994, MemAllocated=0.15GB, MaxMemAllocated=12.35GB
[2024-07-15 09:40:08,872] [INFO] [logging.py:96:log_dist] [Rank 0] step=80, skipped=20, lr=[0.0006187014836005639], mom=[[0.9, 0.999]]
[2024-07-15 09:40:08,876] [INFO] [timer.py:258:stop] epoch=0/micro_step=80/global_step=80, RunningAvgSamplesPerSec=3919.2632044268403, CurrSamplesPerSec=7450.65613436161, MemAllocated=0.15GB, MaxMemAllocated=12.35GB
[2024-07-15 09:40:35,591] [INFO] [logging.py:96:log_dist] [Rank 0] step=90, skipped=20, lr=[0.00048674107030718456], mom=[[0.9, 0.999]]
[2024-07-15 09:40:35,595] [INFO] [timer.py:258:stop] epoch=0/micro_step=90/global_step=90, RunningAvgSamplesPerSec=3902.0596302236936, CurrSamplesPerSec=5753.181647280327, MemAllocated=0.15GB, MaxMemAllocated=12.35GB
[2024-07-15 09:41:03,325] [INFO] [logging.py:96:log_dist] [Rank 0] step=100, skipped=20, lr=[0.00035571846092755663], mom=[[0.9, 0.999]]
[2024-07-15 09:41:03,330] [INFO] [timer.py:258:stop] epoch=0/micro_step=100/global_step=100, RunningAvgSamplesPerSec=3872.989345373385, CurrSamplesPerSec=3505.692157749489, MemAllocated=0.15GB, MaxMemAllocated=12.35GB
[2024-07-15 09:41:29,469] [INFO] [logging.py:96:log_dist] [Rank 0] step=110, skipped=20, lr=[0.0002348660669855348], mom=[[0.9, 0.999]]
[2024-07-15 09:41:29,473] [INFO] [timer.py:258:stop] epoch=0/micro_step=110/global_step=110, RunningAvgSamplesPerSec=3871.4110528852634, CurrSamplesPerSec=4151.146490204959, MemAllocated=0.15GB, MaxMemAllocated=12.35GB
[2024-07-15 09:41:56,255] [INFO] [logging.py:96:log_dist] [Rank 0] step=120, skipped=20, lr=[0.0001326996632760096], mom=[[0.9, 0.999]]
[2024-07-15 09:41:56,259] [INFO] [timer.py:258:stop] epoch=0/micro_step=120/global_step=120, RunningAvgSamplesPerSec=3862.021285033894, CurrSamplesPerSec=7044.952454143372, MemAllocated=0.15GB, MaxMemAllocated=12.35GB
[2024-07-15 09:41:56,260] [INFO] [logging.py:96:log_dist] [Rank 0] [Torch] Checkpoint 120 is about to be saved!
[2024-07-15 09:41:56,267] [INFO] [logging.py:96:log_dist] [Rank 0] Saving model checkpoint: /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/mp_rank_00_model_states.pt
[2024-07-15 09:41:56,267] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/mp_rank_00_model_states.pt...
[2024-07-15 09:41:56,379] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/mp_rank_00_model_states.pt.
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_0_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_3_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_1_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_2_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_35_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_33_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_20_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,393] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_28_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_17_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_10_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_15_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_32_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_23_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,393] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_29_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_16_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_11_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_12_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_27_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_6_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_34_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_21_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_30_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_19_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_8_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_13_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_26_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_5_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_22_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_31_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_18_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_9_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_14_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_24_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_7_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_25_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,392] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_4_mp_rank_00_optim_states.pt...
[2024-07-15 09:41:56,403] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_26_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,403] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_26_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,404] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,405] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_16_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,405] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_16_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,405] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,405] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_15_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,405] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_15_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,405] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,405] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_23_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,405] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_23_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,405] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,405] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_30_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,405] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_30_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,405] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_3_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,405] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_3_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,405] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,405] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,406] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_35_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,406] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_35_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,406] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_25_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,406] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_25_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,406] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,406] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,406] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_10_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,406] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_10_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,406] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,406] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_20_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,406] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_20_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,406] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,407] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_0_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,407] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_4_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,407] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_4_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,407] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,407] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_12_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,407] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_12_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,408] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,408] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_17_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,408] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_17_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,408] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,409] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_31_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,409] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_31_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,409] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,409] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_0_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,409] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,409] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_24_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,409] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_24_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,409] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,409] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_21_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,409] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_21_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,409] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,409] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_33_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,409] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_33_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,409] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,409] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_11_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,409] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_11_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,409] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,410] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_7_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,410] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_7_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,410] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,411] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_1_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,411] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_1_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,411] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,411] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_28_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,411] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_28_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,411] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,411] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_8_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,411] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_8_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,411] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_19_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,412] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_19_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,411] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_22_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,412] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_22_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_27_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,412] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_27_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_14_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,412] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_14_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_13_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,412] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_13_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_29_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,412] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_29_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_18_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,412] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_18_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_34_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,412] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_34_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_2_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,412] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_2_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_9_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,412] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_9_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_6_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_5_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,412] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_6_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,412] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_5_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,412] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
[2024-07-15 09:41:56,413] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_32_mp_rank_00_optim_states.pt.
[2024-07-15 09:41:56,413] [INFO] [engine.py:3478:_save_zero_checkpoint] zero checkpoint saved /scratch/acf15429bz/deepspeed_abci_tutorial/tutorial/120/zero_pp_rank_32_mp_rank_00_optim_states.pt
[2024-07-15 09:41:56,413] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint 120 is ready now!
Finished Training
wandb: - 0.010 MB of 0.023 MB uploadedwandb: \ 0.023 MB of 0.023 MB uploadedwandb: | 0.023 MB of 0.023 MB uploadedwandb: / 0.023 MB of 0.023 MB uploadedwandb:                                                                                
wandb: 
wandb: Run history:
wandb: train/epoch ▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁
wandb:  train/loss ▆▆▇▇▇█▆▆▆▆▅▅▅▅▅▄▄▄▄▃▃▂▂▂▂▂▂▁▁▁▁▁
wandb:    train/lr ████▁▆██████▇▇▇▇▆▆▆▅▅▅▄▄▃▃▃▂▂▂▂▁
wandb: 
wandb: Run summary:
wandb: train/epoch 1
wandb:  train/loss 5.96094
wandb:    train/lr 7e-05
wandb: 
wandb: 🚀 View run tutorial at: https://wandb.ai/lejelly/deepspeed-abci-tutorial/runs/12kzaa4y
wandb: ⭐️ View project at: https://wandb.ai/lejelly/deepspeed-abci-tutorial
wandb: Synced 5 W&B file(s), 0 media file(s), 0 artifact file(s) and 0 other file(s)
wandb: Find logs at: ./wandb/run-20240715_093639-12kzaa4y/logs
wandb: WARNING The new W&B backend becomes opt-out in version 0.18.0; try it out with `wandb.require("core")`! See https://wandb.me/wandb-core for more information.