API名称 | 新增API名称 |
---|---|
提交作者 | 王骐昊 |
提交时间 | 2022-03-01 |
版本号 | V1.0 |
依赖飞桨版本 | develop |
文件名 | 20220330_api_design_for_pointer_summarizer.md |
文本摘要是一类经典的NLP任务。本任务是为了实现基于pointer_summarizer方法的摘要任务,并且完成在LCSTS_new中文数据集上的开发例子。
在paddlenlp repo中text_summarization下增加基于pointer_summarizer在中文数据集上LCSTS_new数据集上实现的文本摘要任务,并且达到ROUGE-1 在验证集0.3553,测试集0.3396的指标。
为飞桨提供了基于pointer_summarizer的中文文本摘要的支持,丰富飞桨在text_summarization任务下的代码案例。
飞桨框架中目前有pointer_summarizer方法在CNN-DailMail上的实现,但是没有对强化学习部分方法的实现。同时飞桨中没有针对LCSTS_new中文数据集的文本摘要案例。
针对论文在Pytorch、TensorFlow等主流深度学习框架上都有实现代码但大多在CNN-DailMail数据集上实现,其中Pytorch中有该方法针对LCSTS_New数据集的实现,即该参考repo。但是需要注意的是该repo使用了强化学习方法进行优化,提高了文本的可读性和在长句上的表现,得到了在测试集上的指标。 另一种在LCSTS数据集上受到较多关注的方法是基于论文,在Pytorch上的实现参考repo
考虑主要参考该repo进行对应方法的实验,并实验得到相应的指标。
无
无
pointer_summarizer部分参考飞桨框架中的实现,强化学习部分考虑参考Pytorch中实现,在飞桨框架中完成相应功能的编写。
根据验证集和测试集上的ROUGE-1进行验收。
对应方法在飞桨中都有实现案例,不存在可行性问题。数据集上的指标也被多次复现达到。
week1:数据处理和MLE部分训练,达到验证集上指标。
week2:编写RL部分代码以及进行对应训练和调优。
week3:完善实验以及编写说明文档。
无
无
无