Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【PaddlePaddle Hackathon 3】开源社区洞察任务合集 #44066

Closed
Ligoml opened this issue Jul 4, 2022 · 1 comment
Closed

【PaddlePaddle Hackathon 3】开源社区洞察任务合集 #44066

Ligoml opened this issue Jul 4, 2022 · 1 comment

Comments

@Ligoml
Copy link
Contributor

Ligoml commented Jul 4, 2022

(此 ISSUE 为 PaddlePaddle Hackathon 第三期活动的任务 ISSUE,更多详见 【PaddlePaddle Hackathon 第三期】任务总览

以下为飞桨黑客松第三期中,开源社区洞察任务合集:

注:报名参与开源社区洞察任务的同学可以向 [email protected] 发邮件,我们会邀请你加入社群参与讨论~

No.87:Paddle 社区数据分析

  • 任务标签:GitHub 社区数据分析,深度学习

  • 任务难度:基础

  • 详细描述:使用 Paddle 社区的 GitHub 日志数据对 Paddle 社区进行深度的分析。
    分析任务包含:

    • 各类统计型任务(如 Issue、PR 数量,响应周期,解决周期等)并进行可视化和介绍,可参考 CHAOSS 指标体系。提出对 Paddle 社区的现状分析与优化建议;
    • 评论的情感分析:使用算法对 Issue 和 PR 中的评论内容进行情感分析,对正面或负面情绪进行识别与展示。
    • (选做)PR 的 reviewer 推荐:使用算法对特定 PR 进行 Reviewer 推荐。
  • 提交流程:对任务进行分析工作,并将结果汇总为 Jupyter Notebook 报告文件,上传至 X-lab2017/open-digger 仓库 Hackathon 文件夹中。

  • 提交内容:提交内容为一个完成的分析报告的 Jupyter Notebook 文件,至少包含基本分析任务。进阶分析任务需包含结果示例用于评判。

  • 评判标准:合入分析结果和说明的 Notebook 文件即为完成任务,最终排名由评判委员会对完成任务的参赛者打分,分数最高者获胜。

  • 技术要求:

    • 熟悉 Python 或 Node.js;
    • 熟悉 Clickhouse SQL 语法;
    • 了解 GitHub 日志数据。
  • 参考内容:

    • 数据集获取:sample_data
    • 熟悉 Node.js,可按上述文档使用 OpenDigger 提供的 Node.js Kernel JupyterLab 容器镜像进行分析工作;
    • 也可自行构建 Python Kernel 并进行分析工作。

No.88:Paddle 社区开发者行为可视化

  • 任务标签:GitHub 社区数据分析,深度学习

  • 任务难度:基础

  • 详细描述:使用 Paddle 社区的 GitHub 日志数据对 Paddle 社区中的开发者进行深入分析。
    分析任务包含:

    • 对 Paddle 社区的开发者的行为进行统计性分析,如日常贡献项目、使用语言、活跃情况、在 Paddle 社区的活跃周期等。
    • 利用算法对 Paddle 社区的贡献者进行开发者画像分析,如开发者的技能标签、所在组织、所在时区分析等。选取10位典型开发者展开介绍,形成对飞桨社区开发者的具象认知。
  • 提交流程:对任务进行分析工作,并将结果汇总为 Jupyter Notebook 报告文件,上传至 X-lab2017/open-digger 仓库 Hackathon 文件夹中。

  • 提交内容:提交内容为一个完成的分析报告的 Jupyter Notebook 文件,至少包含基本分析任务。进阶分析任务需包含结果示例用于评判。

  • 评判标准:合入分析结果和说明的 Notebook 文件即为完成任务,最终排名由评判委员会对完成任务的参赛者打分,分数最高者获胜。

  • 技术要求:

    • 熟悉 Python 或 Node.js;
    • 熟悉 Clickhouse SQL 语法;
    • 了解 GitHub 日志数据。
  • 参考内容:

    • 数据集获取:sample_data
    • 熟悉 Node.js,可按上述文档使用 OpenDigger 提供的 Node.js Kernel JupyterLab 容器镜像进行分析工作;
    • 也可自行构建 Python Kernel 并进行分析工作。

No.89:开源社区对比研究

  • 任务标签:GitHub 社区数据分析,GitHub 社区社会学研究

  • 任务难度:进阶

  • 详细描述:选取 GitHub上包含 PaddlePaddle/Paddle 社区在内的 10 个国内外优秀开源社区(不需要局限在人工智能领域,star 数 10k 以上),依据 GitHub 公开数据、社区研究论文、第三方分析报告等资料,对 10 个开源社区做横向对比研究。开放性任务。

  • 提交流程:提 PR 至 PaddlePaddle/community/ 仓库的 insight 目录。

  • 提交内容:一份对比研究报告,PDF 格式,如有其他开源分析 repo 可附链接在PDF中。

  • 评判标准:合入 PR 即为完成任务,最终排名由评判委员会对完成任务的参赛者打分,分数最高者获胜,次优者酌情获得奖励。

  • 技术要求:无。

  • 参考内容:

答疑交流

  • 如果对于上述任务有任何问题,欢迎在本 Issue 下留言交流;
  • 如果有 OpenDigger 使用相关问题,欢迎在 OpenDigger 项目中提交 Issue 进行讨论。
@GT-ZhangAcer
Copy link
Member

Python环境下的PyGitHub第三方库封装了较多GitHub V3 API,可考虑使用该库提供GitHub数据支持。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

4 participants