说明

本项目使用了较多新版本python的特性，如海象等式、类型标注等等，故需要较高python版本

NLP Flask

用于快速调用LTP等工具，进行分词、语义、三元组抽取等操作。

运行set_up.py配置环境

模型请到哈工大的网站或hugging-face自行下载。

spider

应该叫crawler，但是懒得改了

pip install httpx安装依赖。

一个实现协程的百度百科爬虫。

其中：

depth 递归的深度，比如词条A中，有B的超链接，B中有C的超链接，若爬取到C，则深度为3，只爬取B，深度为2，只爬取A，深度为1；
batch_size 每批次爬取的词条数目；
halt 两个批次间的暂停时间；

推荐depth设置为3 batch_size为16 halt为2

cnki_parser

用于解析从CNKI上下载的文献信息。

输入：

输出json文件：

cooperation_analyse

输入上一部分输出的json文件。

输出包含作者合作关系的json文件： {Author: [Article, [Authors]]···}

info_extension

信息扩展。

第一步，将cnki.json中的所有键全部转化为百度百科链接

第二步，从百度百科爬取所有信息，并保存

neo4j_builder

pip install py2neo安装依赖

neo4j console运行neo4j

修改neo4j_builder.py中的登陆密码

将info_extension得到的所有json以及cnki.json放入input

运行

inquire_sys

问答系统

pip install pyahocorasick安装依赖

运行app.py

打开localhost:8848即可

询问数字孪生的全部信息，结果如下（部分）：

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
NLP-Flask		NLP-Flask
cnki_parser		cnki_parser
cooperation_analyse		cooperation_analyse
info_extension		info_extension
inquire_sys		inquire_sys
neo4j_builder		neo4j_builder
spider		spider
trash		trash
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

说明

NLP Flask

spider

cnki_parser

cooperation_analyse

info_extension

neo4j_builder

inquire_sys

About

Releases

Packages

Languages

License

kingwingfly/knowledge_graph_builder_and_consultant

Folders and files

Latest commit

History

Repository files navigation

说明

NLP Flask

spider

cnki_parser

cooperation_analyse

info_extension

neo4j_builder

inquire_sys

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages