百度贴吧分布式爬虫

版本

【v0.9】 @ May 6 2017 -> 0813bc127125438b71dfee6dc9a3153661c8d629

简介

该分布式爬虫可以抓取贴吧帖子内容并进行相关数据分析（详情见数据分析示例）。

目前该系统内部自带了4个插件用于数据分析，你可以给它贡献更多插件（插件由Python编写）

该爬虫系统主要由3部分组成：TaskManager任务管理服务器，KCrawlerManager用户端管理软件（KCrawlerController），Cralwer爬虫程序

在你继续往下读之前：

如果你只是简单的想使用这个软件爬取信息并加以分析，你需要下载以下文件：

tieba-zhuaqu：贴吧抓取主程序（请运行RunTest.bat）
KCrawlerControal:需要使用这个软件里面的数据分析模块

在开始之前请确认你已经安装python3.5以及后面提到的第三方库。

** 建议使用数据库版本（以DSV开头的）

** 注意：你需要将AttachImport文件下的ktieba文件夹放入C盘根目录，才能够正常运行。

语言及环境

Python3.5.1

C++

Visual Studio 2015

建议你安装64位的python，否则可能会出现memory error

文件结构

所有以DSV开头的文件夹代表其对应的数据库版本（Database Support Version）（默认为任务结果文件版本）

shareLib:系统组成三部分的共享库，定义报文，网络交互操作
task-manager：TaskManager任务管理服务器
tieba-zhuaqu：KCrawler爬虫主体
user-application：KCrawlerManager用户端管理软件KCrawlerController
DataAnalyzer：数据分析套件（从user-application中独立出来的）

数据库结构见下图：

第三方库

matplotlib：用于对数据进行可视化分析

numpy：用于对数据进行可视化分析

jieba中文分词：用于中文分词以及关键字提取

数据分析模块

**测试数据下载地址：http://pan.cuit.edu.cn/share/7FF9yiO5 （提取码：cm8p）

数据分析示例见文档末尾

开发状态

开发中...

授权条款：GPL

数据分析示例

目前自带的数据分析插件可以完成以下几种类型的分析：

对比统计多个词语（multiwords）

显示某个词语的词频-时间图（wordstimeline）

分析特定用户

分析某位用户的贴吧活跃度（userX）

分析某位用户的高频关键字（userX）

分析某位用户的贴吧活跃时间段（userX：通过叠加每日活跃时间段）

Name		Name	Last commit message	Last commit date
Latest commit History 64 Commits
AttachImport/ktieba		AttachImport/ktieba
BAS		BAS
DSV-tieba-zhuaqu		DSV-tieba-zhuaqu
DSV-user-application-plugin-dev-kit		DSV-user-application-plugin-dev-kit
README		README
data-analyzer-local/tieba-zhuaqu-DataAnalyzer		data-analyzer-local/tieba-zhuaqu-DataAnalyzer
reciveCache		reciveCache
shareLib		shareLib
task-manger		task-manger
tieba-zhuaqu		tieba-zhuaqu
user-application-plugin-dev-kit		user-application-plugin-dev-kit
user-application		user-application
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

百度贴吧分布式爬虫

版本

简介

在你继续往下读之前：

语言及环境

建议你安装64位的python，否则可能会出现memory error

文件结构

第三方库

数据分析模块

开发状态

授权条款：GPL

数据分析示例

分析特定用户

About

Releases

Packages

Languages

License

ankanch/tieba-zhuaqu

Folders and files

Latest commit

History

Repository files navigation

百度贴吧分布式爬虫

版本

简介

在你继续往下读之前：

语言及环境

建议你安装64位的python，否则可能会出现memory error

文件结构

第三方库

数据分析模块

开发状态

授权条款：GPL

数据分析示例

分析特定用户

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages