Skip to content

Discovering real variance of gradients and reliableness of rectification in RAdam optimizer

License

Notifications You must be signed in to change notification settings

elephantmipt/RAdam_research

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

67 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

RAdam_research

В этом репозитории хранится исходный код для запуска и аналитики результатов проекта.

Эксперимент

Мы посмотрели на распределение градиентов между последним и предпоследним слоем ResNet-18 на датасете CIFAR-10 c разными оптимизаторами.

test accuracy

Для каждого веса была проведена бутстрэпная оценка дисперсии на каждой итерации для величины

drawing

Так же был применен критерий согласия Шапиро-Уилка и сделана попрака FWER методом Холма. В результате было получено несколько графиков — один для каждого параметра.

Анализ результатов

Для каждого из десяти нейронов посмотрим на распределение градиентов для всех весов имеющих отношение к ним:

drawing

Как видно, в целом, распределение для каждого нейрона похоже на смесь нормальных.

Теперь для каждого веса посмотрим на рапсределение градиентов для него и проверим гипотезу о нормальности. После поправки FWER получим:

drawing

Посмотрим на тот для которого гипотеза отверглась (первый график), и на тот, для которого гипотеза не отверглась (второй график). Теоретическую оценку возьмем в предположении нормальности градиентов.

drawing

drawing

Как видно для первого графика на первых итерациях отклонение достаточно значимо.

About

Discovering real variance of gradients and reliableness of rectification in RAdam optimizer

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •