【v0.9】 @ May 6 2017 -> 0813bc127125438b71dfee6dc9a3153661c8d629
该分布式爬虫可以抓取贴吧帖子内容并进行相关数据分析(详情见数据分析示例)。
目前该系统内部自带了4个插件用于数据分析,你可以给它贡献更多插件(插件由Python编写)
该爬虫系统主要由3部分组成:TaskManager任务管理服务器,KCrawlerManager用户端管理软件(KCrawlerController),Cralwer爬虫程序
如果你只是简单的想使用这个软件爬取信息并加以分析,你需要下载以下文件:
tieba-zhuaqu:贴吧抓取主程序(请运行RunTest.bat)
KCrawlerControal:需要使用这个软件里面的数据分析模块
在开始之前请确认你已经安装python3.5以及后面提到的第三方库。
** 建议使用数据库版本(以DSV开头的)
** 注意:你需要将AttachImport
文件下的ktieba
文件夹放入C盘根目录,才能够正常运行。
Python3.5.1
C++
Visual Studio 2015
所有以DSV开头的文件夹代表其对应的数据库版本(Database Support Version)(默认为任务结果文件版本)
shareLib:系统组成三部分的共享库,定义报文,网络交互操作
task-manager:TaskManager任务管理服务器
tieba-zhuaqu:KCrawler爬虫主体
user-application:KCrawlerManager用户端管理软件KCrawlerController
DataAnalyzer:数据分析套件(从user-application中独立出来的)
数据库结构见下图:
matplotlib:用于对数据进行可视化分析
numpy:用于对数据进行可视化分析
jieba中文分词:用于中文分词以及关键字提取
**测试数据下载地址:http://pan.cuit.edu.cn/share/7FF9yiO5 (提取码:cm8p)
数据分析示例见文档末尾
开发中...
目前自带的数据分析插件可以完成以下几种类型的分析:
对比统计多个词语(multiwords)
显示某个词语的词频-时间图(wordstimeline)
分析某位用户的贴吧活跃度(userX)
分析某位用户的高频关键字(userX)
分析某位用户的贴吧活跃时间段(userX:通过叠加每日活跃时间段)