Multi-tensor LAMB #16893

MoisesHer · 2019-11-23T01:24:56Z

Multi-tensor LAMB Optimizer (in development / debugging)

Checklist

Essentials

Please feel free to remove inapplicable items for your PR.

Changes are complete
All changes have test coverage:
A test of the multi-LAMB optimizer is added in tests/python/unittest/test_optimizer:test_multilamb
Code is well-documented:
To the my best knowledge, examples are either not affected by this change, or have been fixed to be compatible with this change

Changes

Added Mxnet operator (CPU & GPU): _multi_lamb_update (and mix precision version _multi_mp_lamb_update). Given weights and gradients of multiple tensors, it updates all of them in parallel
Python LAMB optimizer was updated to launch the multi-tensor version if MXNET_OPTIMIZER_AGGREGATION_SIZE > 1

leezu · 2019-11-27T06:47:01Z

What's the relation with #16715? #16715 recently added 'LAMB' optimizer to python/mxnet/optimizer/optimizer.py. Your code is currently in conflict. Please resolve the conflict by merging or rebasing on master.

MoisesHer · 2019-11-28T01:12:14Z

What's the relation with #16715? #16715 recently added 'LAMB' optimizer to python/mxnet/optimizer/optimizer.py. Your code is currently in conflict. Please resolve the conflict by merging or rebasing on master.

I merged master, so conflict is resolved. This operator is similar to #16715 but instead of updating a single Tensor, it updates multiple-tensors simultaneously. Thus, it expose more parallelism.

leezu · 2019-11-28T02:32:02Z

Thanks for the clarification. Is it necessary to expose it as a separate multiLamb optimizer? Can it be integrated with #16715? Why do we need the less parallel implementation? Or are there other differences? Sorry, I didn't read through the code yet.

src/operator/contrib/multi_lamb-inl.h

src/operator/contrib/multi_lamb.cu

python/mxnet/ndarray/contrib.py

python/mxnet/optimizer/optimizer.py

src/operator/contrib/multi_lamb-inl.h

python/mxnet/optimizer/optimizer.py

src/operator/contrib/multi_lamb-inl.h

leezu

Ping @MoisesHer Is the MultiLAMB optimizer a generalization of LAMB optimizer? If so, why do we keep the LAMB optimizer? If not, please add documentation or a reference to the docstring. Thank you!

MoisesHer · 2019-12-03T18:51:00Z

Ping @MoisesHer Is the MultiLAMB optimizer a generalization of LAMB optimizer? If so, why do we keep the LAMB optimizer? If not, please add documentation or a reference to the docstring. Thank you!

Sorry, since we were having different numbers of states I was not sure how to reuse the previous optimizer. After Haibin suggestion, now we have same numbers of states.
I have merged both optimizers. If aggregation number is <=1 or gradients/weights is a unique NDArray, the single-tensor implementation is used, otherwise, the multi-tensor implementation is used.

eric-haibin-lin · 2019-12-15T06:39:18Z

could you update the code based on #17002 ?

python/mxnet/optimizer/optimizer.py

src/operator/contrib/multi_lamb-inl.h

python/mxnet/optimizer/optimizer.py

src/operator/contrib/multi_lamb-inl.h

… single-tensor LAMB

eric-haibin-lin

In general looks good to me! Two more minor comments

python/mxnet/optimizer/optimizer.py

src/operator/contrib/multi_lamb.cc

eric-haibin-lin

I'm not sure why CI is pending all the time. Could you sync with mxnet master and trigger the CI again?

eric-haibin-lin · 2020-01-16T02:16:34Z

Thank you @MoisesHer for addressing all the review comments

Add multi-tensor lamb Op

df4e7cc

MoisesHer requested review from eric-haibin-lin and szha as code owners November 23, 2019 01:24

Fix compilation issue

cb6e72e

MoisesHer changed the title ~~Add multi-tensor lamb Op~~ Multi-tensor LAMB Nov 23, 2019

Optimize GPU kernels

7f62016

MoisesHer added 3 commits November 27, 2019 16:02

Stable version (included optimizer tests)

c206f75

Merge remote-tracking branch 'upstream/master'

864faf5

fix lint errors

d0fbd18

fix lint errors

73656d8

MoisesHer added 2 commits November 28, 2019 03:49

fix pylint errors

3a15208

fix pylint errors

f0a730b

eric-haibin-lin reviewed Dec 2, 2019

View reviewed changes

Remove extra state for temporal_g (now using requested workspace)

3fe47df

leezu reviewed Dec 3, 2019

View reviewed changes

MoisesHer added 3 commits December 3, 2019 03:28

change default value of bounds and bias

af8ca9e

Fix bugs related to removal extra state

a7d541e

Reuse existing LAMB optimizer

d6fcd8a

MoisesHer added 5 commits December 3, 2019 22:30

Fix pylint errors

2d74f7b

Resolve conflict in Optimizer

d03f6bd

Fix pylint erros

89d59ad

Fix pylint erros

156a131

Remove large tensors from test (memory issues when checking)

f21f1ca

MoisesHer added 2 commits December 17, 2019 09:52

Merge remote-tracking branch 'upstream/master'

51d8e24

Fix bug: needs to allocate memory for MultiSumSq

69a7142

eric-haibin-lin suggested changes Dec 19, 2019

View reviewed changes

python/mxnet/optimizer/optimizer.py Show resolved Hide resolved

MoisesHer added 2 commits December 19, 2019 14:19

Fix index bug and allows different lrs/wds for each tensor

06e7c4e

Template data type for lrs/wds

1cf031a

eric-haibin-lin reviewed Dec 20, 2019

View reviewed changes

src/operator/contrib/multi_lamb-inl.h Show resolved Hide resolved

eric-haibin-lin reviewed Dec 20, 2019

View reviewed changes

python/mxnet/optimizer/optimizer.py Show resolved Hide resolved

src/operator/contrib/multi_lamb-inl.h Show resolved Hide resolved

eric-haibin-lin reviewed Dec 21, 2019

View reviewed changes

src/operator/contrib/multi_lamb-inl.h Outdated Show resolved Hide resolved

MoisesHer added 2 commits December 20, 2019 18:02

Match single-tensor LAMB, and allows to pass a list (AGGREATION=1) to…

a982cc0

… single-tensor LAMB

Follow Mxnet case/format

e68deaa

eric-haibin-lin reviewed Jan 6, 2020

View reviewed changes

python/mxnet/optimizer/optimizer.py Outdated Show resolved Hide resolved

src/operator/contrib/multi_lamb.cc Outdated Show resolved Hide resolved

Clean-up code and follow Mxnet case/format

fbeba9d

MoisesHer requested a review from eric-haibin-lin January 7, 2020 17:55

eric-haibin-lin reviewed Jan 13, 2020

View reviewed changes

eric-haibin-lin approved these changes Jan 13, 2020

View reviewed changes

MoisesHer added 4 commits January 13, 2020 20:39

Merge remote-tracking branch 'upstream/master'

88ffb27

fix lint issues

4d867bc

Fix linking problem

85bf380

pylint issue

c65432c

eric-haibin-lin merged commit 6b9a1da into apache:master Jan 16, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Multi-tensor LAMB #16893

Multi-tensor LAMB #16893

MoisesHer commented Nov 23, 2019 •

edited

Loading

leezu commented Nov 27, 2019 •

edited

Loading

MoisesHer commented Nov 28, 2019 •

edited by leezu

Loading

leezu commented Nov 28, 2019

leezu left a comment

MoisesHer commented Dec 3, 2019

eric-haibin-lin commented Dec 15, 2019

eric-haibin-lin left a comment

eric-haibin-lin left a comment

eric-haibin-lin commented Jan 16, 2020

Multi-tensor LAMB #16893

Multi-tensor LAMB #16893

Conversation

MoisesHer commented Nov 23, 2019 • edited Loading

Checklist

Essentials

Changes

leezu commented Nov 27, 2019 • edited Loading

MoisesHer commented Nov 28, 2019 • edited by leezu Loading

leezu commented Nov 28, 2019

leezu left a comment

Choose a reason for hiding this comment

MoisesHer commented Dec 3, 2019

eric-haibin-lin commented Dec 15, 2019

eric-haibin-lin left a comment

Choose a reason for hiding this comment

eric-haibin-lin left a comment

Choose a reason for hiding this comment

eric-haibin-lin commented Jan 16, 2020

MoisesHer commented Nov 23, 2019 •

edited

Loading

leezu commented Nov 27, 2019 •

edited

Loading

MoisesHer commented Nov 28, 2019 •

edited by leezu

Loading