[AutoParallel] Fit allreduce_matmul_grad_overlapping when using master grad #61865

AndSonder · 2024-02-20T10:01:27Z

PR types

Bug fixes

PR changes

Others

Description

当下 allreduce_matmul_grad_overlapping 和 master_grad 同时开启的情况下，会出现 cast op 位置错误的情况，导致 cast op 将没有初始化的tensor作为输入，进而导致选Kernel报错：

为了适配这种情况，我们需要需要将依赖 dy 的 op 移动到 allreduce_matmul_grad_overlapping 的第二个 matmul 之后：

依赖环境：

PaddleNLP develop llama 模型（hidden_layer 修改为 4）
4 卡 1080 Ti 服务器

经过测试，llama 模型的loss和pr修改前可以对齐

paddle-bot · 2024-02-20T10:01:31Z

你的PR提交成功，感谢你对开源项目的贡献!
请关注后续CI自动化测试结果，详情请参考Paddle-CI手册。
Your PR has been submitted. Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

From00

LGTM

AndSonder added 3 commits February 19, 2024 06:21

remove sync_with_cpp

b51138e

fix allreduce matmul grad overlaping when open master_grad

84cac6b

add annotation

837c302

paddle-bot bot added the contributor External developers label Feb 20, 2024

update universal codes

41dd759

From00 approved these changes Feb 24, 2024

View reviewed changes

From00 merged commit 2823a59 into PaddlePaddle:develop Feb 26, 2024
30 checks passed

This was referenced Mar 6, 2024

[WeeklyReports] 2024.02.25~2024.03.08 周报汇总 PFCCLab/Camp#132

Closed

为 Paddle 支持 Zero-Bubble 并行编排 #62666

Closed

AndSonder deleted the fit_allreduce_matmul_grad_overlapping_when_open_master_grad branch April 23, 2024 13:56

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[AutoParallel] Fit allreduce_matmul_grad_overlapping when using master grad #61865

[AutoParallel] Fit allreduce_matmul_grad_overlapping when using master grad #61865

AndSonder commented Feb 20, 2024 •

edited

Loading

paddle-bot bot commented Feb 20, 2024

From00 left a comment

[AutoParallel] Fit allreduce_matmul_grad_overlapping when using master grad #61865

[AutoParallel] Fit allreduce_matmul_grad_overlapping when using master grad #61865

Conversation

AndSonder commented Feb 20, 2024 • edited Loading

PR types

PR changes

Description

paddle-bot bot commented Feb 20, 2024

From00 left a comment

Choose a reason for hiding this comment

AndSonder commented Feb 20, 2024 •

edited

Loading