语料名称 | 网盘链接 | 提取码 | 备注 |
---|---|---|---|
百度对话语料 | link | qnn3 | 数据集包含百度知道和其他资源,构建了一个这样的一个数据集,4万多个问答对 |
人民日报语料 | link | m2nx | 数据集包含600多万字节的中文文章进行了分词及词性标注 |
中文聊语料 | link | f3vs | 数据集包含豆瓣、电视剧对白、贴吧、微博、小黄鸡、青云等对话语料 |
中文谣言语料 | link | w9wj | 数据集包含从2009年9月4日至2017年6月12日的31669条谣言,json格式 |
百度信息抽取比赛 | link | z9hm | 数据集共包含 50个已定义好的schema和超过21万中文句子,其中包括17万训练集,2万验证集和2万测试集 |
百度机器阅读理解比赛 | link | 4g1b | 数据集包含约28万问题,其中包括27万训练集,约3000开发集和7000测试集 |
百度知识驱动对话比赛 | link | 47i2 | 数据集约十几万轮对话,每个session包括对话目标、相关知识信息和对话内容 |
forked from fighting41love/NLP_Corpus_Plan
-
Notifications
You must be signed in to change notification settings - Fork 0
SoaringTiger/NLP_Corpus_Plan
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
NLP_Corpus_Plan
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published
Languages
- Python 100.0%