NLP民工的乐园
在入门到熟悉NLP的过程中,用到了很多github上的包,遂整理了一下,分享在这里。
很多包非常有趣,值得收藏,满足大家的收集癖! 如果觉得有用,请分享并star:star:,谢谢!
长期不定时更新,欢迎watch和fork!:heart::heart::heart:
🍆 🍒 🍐 🍊 | 🌻 🍓 🍈 🍅 🍍 |
---|---|
* 语料库 * 词库及词法工具 * 预训练语言模型 * 抽取 * 知识图谱 * 文本生成 * 文本摘要 * 智能问答 * 文本纠错 |
* 文档处理 * 表格处理 * 文本匹配 * 文本数据增强 * 文本检索 * 阅读理解 * 情感分析 * 常用正则表达式 * 语音处理 |
* 常用正则表达式 * 事件抽取 * 机器翻译 * 数字转换 * 指代消解 * 文本聚类 * 文本分类 * 知识推理 * 可解释NLP * 文本对抗攻击 |
* 文本可视化 * 文本标注工具 * 综合工具 * 有趣搞笑工具 * 课程报告面试等 * 比赛 * 金融NLP * 医疗NLP * 法律NLP * 文本生成图像 * 其他 |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
人名语料库 | wainshine/Chinese-Names-Corpus | |
Chinese-Word-Vectors | 各种中文词向量 | github repo |
中文聊天语料 | 该库搜集了包含豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料 | link |
中文谣言数据 | 该数据文件中,每一行为一条json格式的谣言数据 | github |
中文问答数据集 | 链接 提取码 2dva | |
微信公众号语料 | 3G语料,包含部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文 | github |
中文自然语言处理 语料、数据集 | github | |
任务型对话英文数据集 | 【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。 | github |
语音识别语料生成工具 | 从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库 | github |
LitBankNLP数据集 | 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 | github |
中文ULMFiT | 情感分析 文本分类 语料及模型 | github |
省市区镇行政区划数据带拼音标注 | github | |
教育行业新闻 自动文摘 语料库 | github | |
中文自然语言处理数据集 | github | |
百度知道问答语料库 | 超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘 | github |
维基大规模平行文本语料 | 85种语言、1620种语言对、135M对照句 | github |
古诗词库 | github repo 更全的古诗词库 |
|
低内存加载维基百科数据 | 用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/s | github |
对联数据 | 700,000 couplets, 超过70万对对联 | github |
《配色辞典》数据集 | github | |
42GB的JD客服对话数据(CSDD) | github | |
70万对联数据 | link | |
用户名黑名单列表 | github | |
依存句法分析语料 | 4万句高质量标注数据 | Homepage |
人民日报语料处理工具集 | github | |
虚假新闻数据集 fake news corpus | github | |
诗歌质量评价/细粒度情感诗歌语料库 | github | |
中文自然语言处理相关的开放任务 | 数据集以及当前最佳结果 | github |
中文缩写数据集 | github | |
中文任务基准测评 | 代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜 | github |
中文谣言数据库 | github | |
CLUEDatasetSearch | 中英文NLP数据集搜索所有中文NLP数据集,附常用英文NLP数据集 | github |
多文档摘要数据集 | github | |
让人人都变得“彬彬有礼”礼貌迁移任务 | 在保留意义的同时将非礼貌语句转换为礼貌语句,提供包含139M + 实例的数据集 | paper and code |
粤语/英语会话双语语料库 | github | |
中文NLP数据集列表 | github | |
类人名/地名/组织机构名的命名体识别数据集 | github | |
中文语言理解测评基准 | 包括代表性的数据集&基准模型&语料库&排行榜 | github |
OpenCLaP多领域开源中文预训练语言模型仓库 | 民事文书、刑事文书、百度百科 | github |
中文全词覆盖BERT及两份阅读理解数据 | DRCD数据集:由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。 CMRC 2018数据集:哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。 |
github |
Dakshina数据集 | 十二种南亚语言的拉丁/本地文字平行数据集合 | github |
OPUS-100 | 以英文为中心的多语(100种)平行语料 | github |
中文阅读理解数据集 | github | |
中文自然语言处理向量合集 | github | |
中文语言理解测评基准 | 包括代表性的数据集、基准(预训练)模型、语料库、排行榜 | github |
NLP数据集/基准任务大列表 | github | |
LitBankNLP数据集 | 支持自然语言处理和计算人文学科任务的100部带标记英文小说语料 | github |
70万对联数据 | github | |
文言文(古文)-现代文平行语料 | 短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并 | github |
COLDDateset,中文冒犯性语言检测数据集 | 涵盖了种族、性别和地区等话题内容,数据待论文发表后放出 | paper |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
textfilter | 中英文敏感词过滤 | observerss/textfilter |
人名抽取功能 | 中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文->中文名字(李约翰)、成语词典 | cocoNLP |
中文缩写库 | 全国人大: 全国 人民 代表大会; 中国: 中华人民共和国;女网赛: 女子/n 网球/n 比赛/vn | github |
汉语拆字词典 | 漢字 拆法 (一) 拆法 (二) 拆法 (三) 拆 手 斥 扌 斥 才 斥 | kfcd/chaizi |
词汇情感值 | 山泉水:0.400704566541 充沛: 0.37006739587 |
rainarch/SentiBridge |
中文词库、停用词、敏感词 | dongxiexidian/Chinese | |
python-pinyin | 汉字转拼音 | mozillazg/python-pinyin |
zhtools | 中文繁简体互转 | skydark/nstools |
英文模拟中文发音引擎 | say wo i ni #说:我爱你 | tinyfool/ChineseWithEnglish |
chinese_dictionary | 同义词库、反义词库、否定词库 | guotong1988/chinese_dictionary |
wordninja | 无空格英文串分割、抽取单词 | wordninja |
汽车品牌、汽车零件相关词汇 | data | |
THU整理的词库 | IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库 | link |
罪名法务名词及分类模型 | 包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能 | github |
分词语料库+代码 | 百度网盘链接 - 提取码 pea6 | |
基于Bi-LSTM + CRF的中文分词+词性标注 | keras实现 | link |
基于Universal Transformer + CRF 的中文分词和词性标注 | link | |
快速神经网络分词包 | java version | |
chinese-xinhua | 中华新华字典数据库及api,包括常用歇后语、成语、词语和汉字 | github |
SpaCy 中文模型 | 包含Parser, NER, 语法树等功能。有一些英文package使用spacy的英文模型的,如果要适配中文,可能需要使用spacy中文模型。 | github |
中文字符数据 | github | |
Synonyms中文近义词工具包 | github | |
HarvestText | 领域自适应文本挖掘工具(新词发现-情感分析-实体链接等) | github |
word2word | 方便易用的多语言词-词对集62种语言/3,564个多语言对 | github |
多音字词典数据及代码 | github | |
汉字、词语、成语查询接口 | github | |
103976个英语单词库包 | (sql版,csv版,Excel版) | github |
英文脏话大列表 | github | |
词语拼音数据 | github | |
186种语言的数字叫法库 | github | |
世界各国大规模人名库 | github | |
汉字字符特征提取器 (featurizer) | 提取汉字的特征(发音特征、字形特征)用做深度学习的特征 | github |
char_featurizer - 汉字字符特征提取工具 | github | |
中日韩分词库mecab的Python接口库 | github | |
g2pC基于上下文的汉语读音自动标记模块 | github | |
ssc, Sound Shape Code | 音形码 - 基于“音形码”的中文字符串相似度计算方法 | version 1 version 2 blog/introduction |
基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧 | github | |
Tokenizer快速、可定制的文本词条化库 | github | |
Tokenizers | 注重性能与多功能性的最先进分词器 | github |
通过同义词替换实现文本“变脸” | github | |
token2index与PyTorch/Tensorflow兼容的强大轻量词条索引库 | github | |
繁简体转换 | github | |
粤语NLP工具 | github | |
领域词典库 | 涵盖68个领域、共计916万词的专业词典知识库 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
BMList | 大模型大列表 | github |
bert论文中文翻译 | link | |
bert原作者的slides | link | |
文本分类实践 | github | |
bert tutorial文本分类教程 | github | |
bert pytorch实现 | github | |
bert pytorch实现 | github | |
BERT生成句向量,BERT做文本分类、文本相似度计算 | github | |
bert、ELMO的图解 | github | |
BERT Pre-trained models and downstream applications | github | |
语言/知识表示工具BERT & ERNIE | github | |
Kashgari中使用gpt-2语言模型 | github | |
Facebook LAMA | 用于分析预训练语言模型中包含的事实和常识知识的探针。语言模型分析,提供Transformer-XL/BERT/ELMo/GPT预训练语言模型的统一访问接口 | github |
中文的GPT2训练代码 | github | |
XLMFacebook的跨语言预训练语言模型 | github | |
海量中文预训练ALBERT模型 | github | |
Transformers 20 | 支持TensorFlow 20 和 PyTorch 的自然语言处理预训练语言模型(BERT, GPT-2, RoBERTa, XLM, DistilBert, XLNet…) 8种架构/33种预训练模型/102种语言 | github |
8篇论文梳理BERT相关模型进展与反思 | github | |
法文RoBERTa预训练语言模型 | 用138GB语料训练的法文RoBERTa预训练语言模型 | link |
中文预训练 ELECTREA 模型 | 基于对抗学习 pretrain Chinese Model | github |
albert-chinese-ner | 用预训练语言模型ALBERT做中文NER | github |
开源预训练语言模型合集 | github | |
中文ELECTRA预训练模型 | github | |
用Transformers(BERT, XLNet, Bart, Electra, Roberta, XLM-Roberta)预测下一个词(模型比较) | github | |
TensorFlow Hub | 40+种语言的新语言模型(包括中文) | link |
UER | 基于不同语料、编码器、目标任务的中文预训练模型仓库(包括BERT、GPT、ELMO等) | github |
开源预训练语言模型合集 | github | |
多语言句向量包 | github | |
Language Model as a Service (LMaaS) | 语言模型即服务 | github |
开源语言模型GPT-NeoX-20B | 200亿参数,是目前最大的可公开访问的预训练通用自回归语言模型 | github |
中文科学文献数据集(CSL) | 包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。 | github |
大模型开发神器 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
时间抽取 | 已集成到 python package cocoNLP中,欢迎试用 | java version python version |
神经网络关系抽取 pytorch | 暂不支持中文 | github |
基于bert的命名实体识别 pytorch | 暂不支持中文 | github |
关键词(Keyphrase)抽取包 pke | github | |
BLINK最先进的实体链接库 | github | |
BERT/CRF实现的命名实体识别 | github | |
支持批并行的LatticeLSTM中文命名实体识别 | github | |
构建医疗实体识别的模型 | 包含词典和语料标注,基于python | github |
基于TensorFlow和BERT的管道式实体及关系抽取 | - Entity and Relation Extraction Based on TensorFlow and BERT 基于TensorFlow和BERT的管道式实体及关系抽取,2019语言与智能技术竞赛信息抽取任务解决方案。Schema based Knowledge Extraction, SKE 2019 | github |
中文命名实体识别NeuroNER vs BertNER | github | |
基于BERT的中文命名实体识别 | github | |
中文关键短语抽取工具 | github | |
bert | 用于中文命名实体识别 tensorflow版本 | github |
bert-Kashgari | 基于 keras 的封装分类标注框架 Kashgari,几分钟即可搭建一个分类或者序列标注模型 | github |
cocoNLP | 人名、地址、邮箱、手机号、手机归属地 等信息的抽取,rake短语抽取算法。 | github |
Microsoft多语言数字/单位/如日期时间识别包 | github | |
百度开源的基准信息抽取系统 | github | |
中文地址分词(地址元素识别与抽取),通过序列标注进行NER | github | |
基于依存句法的开放域文本知识三元组抽取和知识库构建 | github | |
基于预训练模型的中文关键词抽取方法 | github | |
chinese_keyphrase_extractor (CKPE) | A tool for chinese keyphrase extraction 一个快速从自然语言文本中提取和识别关键短语的工具 | github |
简单的简历解析器,用来从简历中提取关键信息 | github | |
BERT-NER-Pytorch三种不同模式的BERT中文NER实验 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
清华大学XLORE中英文跨语言百科知识图谱 | 百度、中文维基、英文维基 | link |
文档图谱自动生成 | github | |
基于医疗领域知识图谱的问答系统 | github 该repo参考了github |
|
中文人物关系知识图谱项目 | github | |
AmpliGraph 知识图谱表示学习(Python)库知识图谱概念链接预测 | github | |
中文知识图谱资料、数据及工具 | github | |
基于百度百科的中文知识图谱 | 抽取三元组信息,构建中文知识图谱 | github |
Zincbase 知识图谱构建工具包 | github | |
基于知识图谱的问答系统 | github | |
知识图谱深度学习相关资料整理 | github | |
东南大学《知识图谱》研究生课程(资料) | github | |
知识图谱车音工作项目 | github | |
《海贼王》知识图谱 | github | |
132个知识图谱的数据集 | 涵盖常识、城市、金融、农业、地理、气象、社交、物联网、医疗、娱乐、生活、商业、出行、科教 | link |
大规模、结构化、中英文双语的新冠知识图谱(COKG-19) | link | |
基于依存句法与语义角色标注的事件三元组抽取 | github | |
抽象知识图谱 | 目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象 | github |
大规模中文知识图谱数据14亿实体 | github | |
Jiagu自然语言处理工具 | 以BiLSTM等模型为基础,提供知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类等功能 | github |
medical_NER - 中文医学知识图谱命名实体识别 | github | |
知识图谱相关学习资料/数据集/工具资源大列表 | github | |
LibKGE面向可复现研究的知识图谱嵌入库 | github | |
基于mongodb存储的军事领域知识图谱问答项目 | 包括飞行器、太空装备等8大类,100余小类,共计5800项的军事武器知识库,该项目不使用图数据库进行存储,通过jieba进行问句解析,问句实体项识别,基于查询模板完成多类问题的查询,主要是提供一种工业界的问答思想demo。 | github |
京东商品知识图谱 | github | |
基于远监督的中文关系抽取 | github | |
基于医药知识图谱的智能问答系统 | github | |
BLINK最先进的实体链接库 | github | |
一个小型的证券知识图谱/知识库 | github | |
dstlr非结构化文本可扩展知识图谱构建平台 | github | |
百度百科人物词条属性抽取 | 用基于BERT的微调和特征提取方法来进行知识图谱 | github |
新冠肺炎相关数据 | 新冠及其他类型肺炎中文医疗对话数据集;清华大学等机构的开放数据源(COVID-19) | github github |
DGL-KE 图嵌入表示学习算法 | github | |
因果关系图谱 | method data | |
基于多领域文本数据集的因果事件对 | link |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Texar | Toolkit for Text Generation and Beyond | github |
Ehud Reiter教授的博客 | link 北大万小军教授强力推荐,该博客对NLG技术、评价与应用进行了深入的探讨与反思。 | |
文本生成相关资源大列表 | github | |
开放域对话生成及在微软小冰中的实践 | 自然语言生成让机器掌握自动创作的本领 | link |
文本生成控制 | github | |
自然语言生成相关资源大列表 | github | |
用BLEURT评价自然语言生成 | link | |
自动对联数据及机器人 | 代码 link 70万对联数据 |
|
自动生成评论 | 用Transformer编解码模型实现的根据Hacker News文章标题生成评论 | github |
自然语言生成SQL语句(英文) | github | |
自然语言生成资源大全 | github | |
中文生成任务基准测评 | github | |
基于GPT2的特定主题文本生成/文本增广 | github | |
编码、标记和实现一种可控高效的文本生成方法 | github | |
TextFooler针对文本分类/推理的对抗文本生成模块 | github | |
SimBERT | 基于UniLM思想、融检索与生成于一体的BERT模型 | github |
新词生成及造句 | 不存在的词用GPT-2变体从头生成新词及其定义、例句 | github |
由文本自动生成多项选择题 | github | |
合成数据生成基准 | github | |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文文本摘要/关键词提取 | github | |
基于命名实体识别的简历自动摘要 | github | |
文本自动摘要库TextTeaser | 仅支持英文 | github |
基于BERT等最新语言模型的抽取式摘要提取 | github | |
Python利用深度学习进行文本摘要的综合指南 | link | |
(Colab)抽象文本摘要实现集锦(教程 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文聊天机器人 | 根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景 | github |
有趣的情趣robot qingyun | qingyun 训练出来的中文聊天机器人 | github |
开放了对话机器人、知识图谱、语义理解、自然语言处理工具及数据 | github | |
qa对的机器人 | Amodel-for-Retrivalchatbot - 客服机器人,Chinese Retreival chatbot(中文检索式机器人) | git |
ConvLab开源多域端到端对话系统平台 | github | |
基于最新版本rasa搭建的对话系统 | github | |
基于金融-司法领域(兼有闲聊性质)的聊天机器人 | github | |
端到端的封闭域对话系统 | github | |
MiningZhiDaoQACorpus | 580万百度知道问答数据挖掘项目,百度知道问答语料库,包括超过580万的问题,每个问题带有问题标签。基于该问答语料库,可支持多种应用,如逻辑挖掘 | github |
用于中文闲聊的GPT2模型GPT2-chitchat | github | |
基于检索聊天机器人多轮响应选择相关资源列表(Leaderboards、Datasets、Papers) | github | |
微软对话机器人框架 | github | |
chatbot-list | 行业内关于智能客服、聊天机器人的应用和架构、算法分享和介绍 | github |
Chinese medical dialogue data 中文医疗对话数据集 | github | |
一个大规模医疗对话数据集 | 包含110万医学咨询,400万条医患对话 | github |
大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ | paper & data | |
开源对话式信息搜索平台 | github | |
情境互动多模态对话挑战2020(DSTC9 2020) | github | |
用Quora问题对训练的T5问题意译(Paraphrase) | github | |
Google发布Taskmaster-2自然语言任务对话数据集 | github | |
Haystack灵活、强大的可扩展问答(QA)框架 | github | |
端到端的封闭域对话系统 | github | |
Amazon发布基于知识的人-人开放领域对话数据集 | github | |
基于百度webqa与dureader数据集训练的Albert Large QA模型 | github | |
CommonsenseQA面向常识的英文QA挑战 | link | |
MedQuAD(英文)医学问答数据集 | github | |
基于Albert、Electra,用维基百科文本作为上下文的问答引擎 | github | |
基于14W歌曲知识库的问答尝试 | 功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文文本纠错模块代码 | github | |
英文拼写检查库 | github | |
python拼写检查库 | github | |
GitHub Typo Corpus大规模GitHub多语言拼写错误/语法错误数据集 | github | |
BertPunc基于BERT的最先进标点修复模型 | github | |
中文写作校对工具 | github | |
文本纠错文献列表 | Chinese Spell Checking (CSC) and Grammatical Error Correction (GEC) | github |
文本智能校对大赛冠军方案 | 已落地应用,来自苏州大学、达摩院团队 | link |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文多模态数据集「悟空」 | 华为诺亚方舟实验室开源大型,包含1亿图文对 | github |
中文图文表征预训练模型Chinese-CLIP | 中文版本CLIP预训练模型,开源多个模型规模,几行代码搞定中文图文表征提取 & 图文检索 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
ASR 语音数据集 + 基于深度学习的中文语音识别系统 | github | |
清华大学THCHS30中文语音数据集 | data_thchs30tgz-OpenSLR国内镜像 data_thchs30tgz test-noisetgz-OpenSLR国内镜像test-noisetgz resourcetgz-OpenSLR国内镜像 resourcetgz Free ST Chinese Mandarin Corpus Free ST Chinese Mandarin Corpus AIShell-1 开源版数据集-OpenSLR国内镜像 AIShell-1 开源版数据集 Primewords Chinese Corpus Set 1-OpenSLR国内镜像 Primewords Chinese Corpus Set 1 |
|
笑声检测器 | github | |
Common Voice语音识别数据集新版 | 包括来自42,000名贡献者超过1,400小时的语音样本,涵github | link |
speech-aligner | 从“人声语音”及其“语言文本”,产生音素级别时间对齐标注的工具 | github |
ASR语音大辞典/词典 | github | |
语音情感分析 | github | |
masr | 中文语音识别,提供预训练模型,高识别率 | github |
面向语音识别的中文文本规范化 | github | |
语音质量评价指标(MOSNet, BSSEval, STOI, PESQ, SRMR) | github | |
面向语音识别的中文/英文发音辞典 | github | |
CoVoSTFacebook发布的多语种语音-文本翻译语料库 | 包括11种语言(法语、德语、荷兰语、俄语、西班牙语、意大利语、土耳其语、波斯语、瑞典语、蒙古语和中文)的语音、文字转录及英文译文 | github |
Parakeet基于PaddlePaddle的文本-语音合成 | github | |
(Java)准确的语音自然语言检测库 | github | |
CoVoSTFacebook发布的多语种语音-文本翻译语料库 | github | |
TensorFlow 2 实现的文本语音合成 | github | |
Python音频特征提取包 | github | |
ViSQOL音频质量感知客观、完整参考指标,分音频、语音两种模式 | github | |
zhrtvc | 好用的中文语音克隆兼中文语音合成系统 | github |
aukit | 好用的语音处理工具箱,包含语音降噪、音频格式转换、特征频谱生成等模块 | github |
phkit | 好用的音素处理工具箱,包含中文音素、英文音素、文本转拼音、文本正则化等模块 | github |
zhvoice | 中文语音语料,语音更加清晰自然,包含8个开源数据集,3200个说话人,900小时语音,1300万字 | github |
audio面向语音行为检测 | 、二值化、说话人识别、自动语音识别、情感识别等任务的音频标注工具 | github |
深度学习情感文本语音合成 | github | |
Python音频数据增广库 | github | |
基于大规模音频数据集Audioset的音频增强 | github | |
语声迁移 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
LayoutLM-v3文档理解模型 | github | |
PyLaia面向手写文档分析的深度学习工具包 | github | |
单文档非监督的关键词抽取 | github | |
DocSearch免费文档搜索引擎 | github | |
fdfgen | 能够自动创建pdf文档,并填写信息 | link |
pdfx | 自动抽取出引用参考文献,并下载对应的pdf文件 | link |
invoice2data | 发票pdf信息抽取 | invoice2data |
pdf文档信息抽取 | github | |
PDFMiner | PDFMiner能获取页面中文本的准确位置,以及字体或行等其他信息。它还有一个PDF转换器,可以将PDF文件转换成其他文本格式(如HTML)。还有一个可扩展的解析器PDF,可以用于文本分析以外的其他用途。 | link |
PyPDF2 | PyPDF 2是一个python PDF库,能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据,还可以将整个文件合并在一起。 | link |
PyPDF2 | PyPDF 2是一个python PDF库,能够分割、合并、裁剪和转换PDF文件的页面。它还可以向PDF文件中添加自定义数据、查看选项和密码。它可以从PDF检索文本和元数据,还可以将整个文件合并在一起。 | link |
ReportLab | ReportLab能快速创建PDF 文档。经过时间证明的、超好用的开源项目,用于创建复杂的、数据驱动的PDF文档和自定义矢量图形。它是免费的,开源的,用Python编写的。该软件包每月下载5万多次,是标准Linux发行版的一部分,嵌入到许多产品中,并被选中为Wikipedia的打印/导出功能提供动力。 | link |
SIMPdfPython写的简单PDF文件文字编辑器 | github | |
pdf-diff | PDF文件diff工具 可显示两个pdf文档的差别 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
用unet实现对文档表格的自动检测,表格重建 | github | |
pdftabextract | 用于OCR识别后的表格信息解析,很强大 | link |
tabula-py | 直接将pdf中的表格信息转换为pandas的dataframe,有java和python两种版本代码 | |
camelot | pdf表格解析 | link |
pdfplumber | pdf表格解析 | |
PubLayNet | 能够划分段落、识别表格、图片 | link |
从论文中提取表格数据 | github | |
用BERT在表格中寻找答案 | github | |
表格问答的系列文章 | 简介 模型 完结篇 |
|
使用GAN生成表格数据(仅支持英文) | github | |
carefree-learn(PyTorch) | 表格数据集自动化机器学习(AutoML)包 | github |
封闭域微调表格检测 | github | |
PDF表格数据提取工具 | github | |
TaBERT理解表格数据查询的新模型 | paper | |
表格处理 | Awesome-Table-Recognition | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
句子、QA相似度匹配MatchZoo | 文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。 | github |
中文问题句子相似度计算比赛及方案汇总 | github | |
similarity相似度计算工具包 | java编写,用于词语、短语、句子、词法分析、情感分析、语义分析等相关的相似度计算 | github |
中文词语相似度计算方法 | 综合了同义词词林扩展版与知网(Hownet)的词语相似度计算方法,词汇覆盖更多、结果更准确。 | gihtub |
Python字符串相似性算法库 | github | |
基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集 | 提供了10万个训练样本 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文NLP数据增强(EDA)工具 | github | |
英文NLP数据增强工具 | github | |
一键中文数据增强工具 | github | |
数据增强在机器翻译及其他nlp任务中的应用及效果 | link | |
NLP数据增广资源集 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
抽取email的正则表达式 | 已集成到 python package cocoNLP中,欢迎试用 | |
抽取phone_number | 已集成到 python package cocoNLP中,欢迎试用 | |
抽取身份证号的正则表达式 | IDCards_pattern = r'^([1-9]\d{5}[12]\d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])\d{3}[0-9xX]) IDs = re.findall(IDCards_pattern, text, flags=0) |
|
IP地址正则表达式 | (25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d).(25[0-5]| 2[0-4]\d| [0-1]\d{2}| [1-9]?\d) | |
腾讯QQ号正则表达式 | [1-9]([0-9]{5,11}) | |
国内固话号码正则表达式 | [0-9-()()]{7,18} | |
用户名正则表达式 | [A-Za-z0-9_-\u4e00-\u9fa5]+ | |
国内电话号码正则匹配(三大运营商+虚拟等) | github | |
正则表达式教程 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
高效模糊搜索工具 | github | |
面向各语种/任务的BERT模型大列表/搜索引擎 | link | |
Deepmatch针对推荐、广告和搜索的深度匹配模型库 | github | |
wwsearch是企业微信后台自研的全文检索引擎 | github | |
aili - the fastest in-memory index in the East 东半球最快并发索引 | github | |
高效的字符串匹配工具 RapidFuzz | a fast string matching library for Python and C++, which is using the string similarity calculations from FuzzyWuzzy | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
高效模糊搜索工具 | github | |
面向各语种/任务的BERT模型大列表/搜索引擎 | link | |
Deepmatch针对推荐、广告和搜索的深度匹配模型库 | github | |
allennlp阅读理解支持多种数据和模 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
方面情感分析包 | github | |
awesome-nlp-sentiment-analysis | 情感分析、情绪原因识别、评价对象和评价词抽取 | github |
情感分析技术让智能客服更懂人类情感 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文事件抽取 | github | |
NLP事件提取文献资源列表 | github | |
PyTorch实现的BERT事件抽取(ACE 2005 corpus) | github | |
新闻事件线索抽取 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
无道词典 | 有道词典的命令行版本,支持英汉互查和在线查询 | github |
NLLB | 支持200+种语言任意互译的语言模型NLLB | link |
Easy-Translate | 在本地翻译大文本文件的脚本,基于Facebook/Meta AI的 M2M100模型和NLLB200模型,支持200+种语言 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
最好的汉字数字(中文数字)-阿拉伯数字转换工具 | github | |
快速转化「中文数字」和「阿拉伯数字」 | github | |
将自然语言数字串解析转换为整数和浮点数 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文指代消解数据 | github baidu ink code a0qq |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
TextCluster短文本聚类预处理模块 Short text cluster | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
NeuralNLP-NeuralClassifier腾讯开源深度学习文本分类工具 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
GraphbrainAI开源软件库和科研工具,目的是促进自动意义提取和文本理解以及知识的探索和推断 | github | |
(哈佛)讲因果推理的免费书 |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
文本机器学习模型最先进解释器库 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
TextAttack自然语言处理模型对抗性攻击框架 | github | |
OpenBackdoor: 文本后门攻防工具包 | OpenBackdoor基于Python和PyTorch开发,可用于复现、评估和开发文本后门攻防的相关算法 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Scattertext 文本可视化(python) | github | |
whatlies词向量交互可视化 | spacy工具 | |
PySS3面向可解释AI的SS3文本分类器机器可视化工具 | github | |
用记事本渲染3D图像 | github | |
attnvisGPT2、BERT等transformer语言模型注意力交互可视化 | github | |
Texthero文本数据高效处理包 | 包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
NLP标注平台综述 | github | |
brat rapid annotation tool 序列标注工具 | link | |
Poplar网页版自然语言标注工具 | github | |
LIDA轻量交互式对话标注工具 | github | |
doccano基于网页的开源协同多语言文本标注工具 | github | |
Datasaurai 在线数据标注工作流管理工具 | link |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
langid | 97种语言检测 | https://github.com/saffsd/langid.py |
langdetect | 语言检测 | https://code.google.com/archive/p/language-detection/ |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
jieba | jieba | |
hanlp | hanlp | |
nlp4han | 中文自然语言处理工具集(断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检 | github |
仇恨言论检测进展 | link | |
基于Pytorch的Bert应用 | 包括命名实体识别、情感分析、文本分类以及文本相似度等 | github |
nlp4han中文自然语言处理工具集 | 断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检查 | github |
一些关于自然语言的基本模型 | github | |
用BERT进行序列标记和文本分类的模板代码 | github | |
jieba_fast 加速版的jieba | github | |
StanfordNLP | 纯Python版自然语言处理包 | link |
Python口语自然语言处理工具集(英文) | github | |
PreNLP自然语言预处理库 | github | |
nlp相关的一些论文及代码 | 包括主题模型、词向量(Word Embedding)、命名实体识别(NER)、文本分类(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)计算等,涉及到各种与nlp相关的算法,基于keras和tensorflow | github |
Python文本挖掘/NLP实战示例 | github | |
Forte灵活强大的自然语言处理pipeline工具集 | github | |
stanza斯坦福团队NLP工具 | 可处理六十多种语言 | github |
Fancy-NLP用于建设商品画像的文本知识挖掘工具 | github | |
全面简便的中文 NLP 工具包 | github | |
工业界常用基于DSSM向量化召回pipeline复现 | github | |
Texthero文本数据高效处理包 | 包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等 | github |
nlpgnn图神经网络自然语言处理工具箱 | github | |
Macadam | 以Tensorflow(Keras)和bert4keras为基础,专注于文本分类、序列标注和关系抽取的自然语言处理工具包 | github |
LineFlow面向所有深度学习框架的NLP数据高效加载器 | github | |
Arabica:Python文本数据探索性分析工具包 | github | |
Python 压力测试工具:SMSBoom | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
汪峰歌词生成器 | phunterlau/wangfeng-rnn | |
女友 情感波动分析 | github | |
NLP太难了系列 | github | |
变量命名神器 | github link | |
图片文字去除,可用于漫画翻译 | github | |
CoupletAI - 对联生成 | 基于CNN+Bi-LSTM+Attention 的自动对对联系统 | github |
用神经网络符号推理求解复杂数学方程 | github | |
基于14W歌曲知识库的问答机器人 | 功能包括歌词接龙,已知歌词找歌曲以及歌曲歌手歌词三角关系的问答 | github |
COPE - 格律诗编辑程序 | github | |
Paper2GUI | 一款面向普通人的AI桌面APP工具箱,免安装即开即用,已支持18+AI模型,内容涵盖语音合成、视频补帧、视频超分、目标检测、图片风格化、OCR识别等领域 | github |
礼貌程度估算器(使用新浪微博数据训练) | github paper | |
草蟒(Python 中文版)入门指南 | 中文编程语言 | homepage gitee |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
自然语言处理报告 | link | |
知识图谱报告 | link | |
数据挖掘报告 | link | |
自动驾驶报告 | link | |
机器翻译报告 | link | |
区块链报告 | link | |
机器人报告 | link | |
计算机图形学报告 | link | |
3D打印报告 | link | |
人脸识别报告 | link | |
人工智能芯片报告 | link | |
cs224n深度学习自然语言处理课程 | link 课程中模型的pytorch实现 link | |
面向深度学习研究人员的自然语言处理实例教程 | github | |
《Natural Language Processing》by Jacob Eisenstein | github | |
ML-NLP | 机器学习(Machine Learning)、NLP面试中常考到的知识点和代码实现 | github |
NLP任务示例项目代码集 | github | |
2019年NLP亮点回顾 | download | |
nlp-recipes微软出品--自然语言处理最佳实践和范例 | github | |
面向深度学习研究人员的自然语言处理实例教程 | github | |
Transfer Learning in Natural Language Processing (NLP) | youtube | |
《机器学习系统》图书 | link github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
复盘所有NLP比赛的TOP方案 | github | |
2019年百度的三元组抽取比赛,“科学空间队”源码(第7名) | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
BDCI2019金融负面信息判定 | github | |
开源的金融投资数据提取工具 | github | |
金融领域自然语言处理研究资源大列表 | github | |
基于金融-司法领域(兼有闲聊性质)的聊天机器人 | github | |
小型金融知识图谱构流程示范 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
中文医学NLP公开资源整理 | github | |
spaCy 医学文本挖掘与信息提取 | github | |
构建医疗实体识别的模型 | 包含词典和语料标注,基于python | github |
基于医疗领域知识图谱的问答系统 | github 该repo参考了github | |
Chinese medical dialogue data 中文医疗对话数据集 | github | |
一个大规模医疗对话数据集 | 包含110万医学咨询,400万条医患对话 | github |
新冠肺炎相关数据 | 新冠及其他类型肺炎中文医疗对话数据集;清华大学等机构的开放数据源(COVID-19) | github github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Blackstone面向非结构化法律文本的spaCy pipeline和NLP模型 | github | |
法务智能文献资源列表 | github | |
基于金融-司法领域(兼有闲聊性质)的聊天机器人 | github | |
罪名法务名词及分类模型 | 包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能 | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
Dalle-mini | 根据文本提示生成图片的迷你版DALL·E | github |
资源名(Name) | 描述(Description) | 链接 |
---|---|---|
phone | 中国手机归属地查询 | ls0f/phone |
phone | 国际手机、电话归属地查询 | AfterShip/phone |
ngender | 根据名字判断性别 | observerss/ngender |
中文对比英文自然语言处理NLP的区别综述 | link | |
各大公司内部里大牛分享的技术文档 PDF 或者 PPT | github | |
comparxiv 用于比较arXiv上两提交版本差异的命令 | pypi | |
CHAMELEON深度学习新闻推荐系统元架构 | github | |
简历自动筛选系统 | github | |
Python实现的多种文本可读性评价指标 | github |