From 5442dfdfb807d7a0476a83421370baebc6ae9f6d Mon Sep 17 00:00:00 2001
From: ShuaiLi <87744419+lishuai-97@users.noreply.github.com>
Date: Sun, 10 Mar 2024 12:39:41 +0800
Subject: [PATCH] [WeeklyReport] lishuai-97 2024.02.25~2024.03.08 (#144)

Co-authored-by: Sonder <55493212+AndSonder@users.noreply.github.com>
---
 .../[WeeklyReports]2024.02.25~2024.03.08.md   | 30 +++++++++++++++++++
 1 file changed, 30 insertions(+)
 create mode 100644 WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.02.25~2024.03.08.md

diff --git a/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.02.25~2024.03.08.md b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.02.25~2024.03.08.md
new file mode 100644
index 00000000..bacfa262
--- /dev/null
+++ b/WeeklyReports/Hackathon_6th/24_lishuai-97/[WeeklyReports]2024.02.25~2024.03.08.md
@@ -0,0 +1,30 @@
+### 姓名
+李帅
+
+### 实习项目
+大模型训练稳定性和高效低价小模型快速收敛
+
+### 本周工作
+
+1. **XXX梯度裁剪算法**
+
+	* 阅读梯度裁剪算法相关论文，了解梯度裁剪背景以及Gradient Clipping、Adaptive Gradient Clipping、LAMB、Clippy等经典梯度裁剪算法的原理和实现方式。
+	* 熟悉XXX梯度裁剪算法的原理和实现方式，并基于AdamW优化器对XXX梯度裁剪算法的element-wise以及gloabl level进行了实现。
+
+
+2. **大模型训练稳定性探索**
+
+	* 阅读大模型训练稳定性相关论文，从优化器、模型结构、尺度大小等角度对大模型训练的不稳定性进行调研。
+	* 基于Megatron-LM对345M参数量的开源模型GPT-2进行训练，尝试先在小规模上进行训练，观察训练过程中的loss spike现象。
+
+3. **问题疑惑与解答** 无
+
+
+### 下周工作
+
+1. 继续完善在小规模开源模型上loss spike的复现，探索解决方案并进行验证。
+2. 在toy expample上验证改进的优化算法，针对结果进行分析和总结。
+3. 阅读符号优化器相关论文，为改进的优化算法提供理论支持。
+
+### 导师点评
+李帅已经熟悉近期的梯度裁剪、更新裁剪、优化器相关的论文，并可以开始着手先复现最新论文中的结论，进度符合预期。