Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【PaddlePaddle Hackathon 2】53、在 Paddle 中实现基于 HDRM 拓扑的 AllReduce #40279

Open
TCChenlong opened this issue Mar 8, 2022 · 0 comments

Comments

@TCChenlong
Copy link
Contributor

TCChenlong commented Mar 8, 2022

(此 ISSUE 为 PaddlePaddle Hackathon 第二期活动的任务 ISSUE,更多详见 【PaddlePaddle Hackathon 第二期】任务总览

【任务说明】

  • 任务标题:在 Paddle 中实现基于 HDRM 拓扑的 AllReduce
  • 技术标签:深度学习框架,C++,通信拓扑
  • 任务难度:困难
  • 详细描述:HDRM 主要思想是基于两阶段全连接 BiGraph 的 rank 映射扩展了传统的 halving doubling 算法,以避免网络拥塞。此任务的目标是在 Paddle 分布式训练框架中,实现 HDRM 拓扑结构的 AllReduce,如果目标结点不支持拓扑所需硬件结构,可尝试软件模拟;除使用 GPU 进行训练外,最好也能支持其他异构硬件。

【提交内容】

【参考内容】

【技术要求】

  • 了解 Paddle 分布式训练框架
  • 熟练掌握 C++ 、Python
  • 熟悉模型训练和集合通信实现、HDRM 通信算法

【答疑交流】

  • 如果在开发中对于上述任务有任何问题,欢迎在本 ISSUE 下留言交流。
  • 对于开发中的共性问题,在活动过程中,会定期组织答疑,请大家关注官网&QQ群的通知,及时参与。
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant