Skip to content

Latest commit

 

History

History
14 lines (11 loc) · 439 Bytes

readme.md

File metadata and controls

14 lines (11 loc) · 439 Bytes

全网爬虫

输入一个网址,异步爬取网站。
all_web_crawler 是支持mongodb 和 内存去重
all_web_es 是支持elasticsearch

优点

  • 对于小网站来说,不用在乎抓取逻辑,速度也是很快,加大开发效率

缺点

  • 对于网站数量很多的, 这个约到后期越慢

测试

  1. 知乎网1个星期 30W数据
  2. python门户网 1个小时 3000篇文章全部抓取