zhihu_userSpiders

知乎用户分布式爬虫

zhihu_spider：利用scrapy_redis，实现分布式。

zhihu_spider2:基本以scrapy_redis为基础，简化了其中一些代码，关键是重写了dupefilter中request_seen方法，利用bloomfilter过滤request，节省空间。

其中start_urls需要提前存入redis，并且zhihu_spider2中，start_urls必须存入redis的set中，key为'start_urls'。

爬的是移动端知乎页面，useragent必须是移动端的。

zhihu_spider2经过测试，用一台机子，网络是校园网，一个上午（3小时），只爬followees(因为知乎大V的followers太多，会发送很多ajax请求)，爬了近6000个用户资料。

运行环境：

系统：ubuntu14.04

db：mongodb和redis

python：2.7.6

Provide feedback