Skip to content

2008820/base_web_spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

全网爬虫

输入一个网址,异步爬取网站。
all_web_crawler 是支持mongodb 和 内存去重
all_web_es 是支持elasticsearch

优点

  • 对于小网站来说,不用在乎抓取逻辑,速度也是很快,加大开发效率

缺点

  • 对于网站数量很多的, 这个约到后期越慢

测试

  1. 知乎网1个星期 30W数据
  2. python门户网 1个小时 3000篇文章全部抓取

About

封装了一个简单的全量爬行蜘蛛

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages