From 5442dfdfb807d7a0476a83421370baebc6ae9f6d Mon Sep 17 00:00:00 2001 From: ShuaiLi <87744419+lishuai-97@users.noreply.github.com> Date: Sun, 10 Mar 2024 12:39:41 +0800 Subject: [PATCH] [WeeklyReport] lishuai-97 2024.02.25~2024.03.08 (#144) Co-authored-by: Sonder <55493212+AndSonder@users.noreply.github.com> --- .../[WeeklyReports]2024.02.25~2024.03.08.md | 30 +++++++++++++++++++ 1 file changed, 30 insertions(+) create mode 100644 WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.02.25~2024.03.08.md diff --git a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.02.25~2024.03.08.md b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.02.25~2024.03.08.md new file mode 100644 index 00000000..bacfa262 --- /dev/null +++ b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.02.25~2024.03.08.md @@ -0,0 +1,30 @@ +### 姓名 +李帅 + +### 实习项目 +大模型训练稳定性和高效低价小模型快速收敛 + +### 本周工作 + +1. **XXX梯度裁剪算法** + + * 阅读梯度裁剪算法相关论文,了解梯度裁剪背景以及Gradient Clipping、Adaptive Gradient Clipping、LAMB、Clippy等经典梯度裁剪算法的原理和实现方式。 + * 熟悉XXX梯度裁剪算法的原理和实现方式,并基于AdamW优化器对XXX梯度裁剪算法的element-wise以及gloabl level进行了实现。 + + +2. **大模型训练稳定性探索** + + * 阅读大模型训练稳定性相关论文,从优化器、模型结构、尺度大小等角度对大模型训练的不稳定性进行调研。 + * 基于Megatron-LM对345M参数量的开源模型GPT-2进行训练,尝试先在小规模上进行训练,观察训练过程中的loss spike现象。 + +3. **问题疑惑与解答** 无 + + +### 下周工作 + +1. 继续完善在小规模开源模型上loss spike的复现,探索解决方案并进行验证。 +2. 在toy expample上验证改进的优化算法,针对结果进行分析和总结。 +3. 阅读符号优化器相关论文,为改进的优化算法提供理论支持。 + +### 导师点评 +李帅已经熟悉近期的梯度裁剪、更新裁剪、优化器相关的论文,并可以开始着手先复现最新论文中的结论,进度符合预期。