本项目使用了较多新版本python的特性,如海象等式、类型标注等等,故需要较高python版本
推荐3.10.8
用于快速调用LTP等工具,进行分词、语义、三元组抽取等操作。
运行set_up.py
配置环境
模型请到哈工大的网站或hugging-face自行下载。
应该叫crawler,但是懒得改了
pip install httpx
安装依赖。
一个实现协程的百度百科爬虫。
其中:
depth
递归的深度,比如 词条A中,有B的超链接,B中有C的超链接,若爬取到C,则深度为3,只爬取B,深度为2,只爬取A,深度为1;batch_size
每批次爬取的词条数目;halt
两个批次间的暂停时间;
推荐depth
设置为3 batch_size
为16 halt为2
用于解析从CNKI上下载的文献信息。
输入:
输出json文件:
输入上一部分输出的json文件。
输出包含作者合作关系的json文件: {Author: [Article, [Authors]]···}
信息扩展。
第一步,将cnki.json中的所有键全部转化为百度百科链接
第二步,从百度百科爬取所有信息,并保存
pip install py2neo
安装依赖
neo4j console
运行neo4j
修改neo4j_builder.py
中的登陆密码
将info_extension得到的所有json以及cnki.json放入input
运行
问答系统
pip install pyahocorasick
安装依赖
运行app.py
打开localhost:8848
即可
询问数字孪生的全部信息
,结果如下(部分):