【Scrapy框架实战】简书网整站爬虫
功能点如下↓:
1.使用Scrapy框架
2.使用Crawl Spider爬虫对相同规则结构url进行爬取
3.将爬取下来的数据保存到MySQL数据库中
4.改进数据保存方式,采用twisted异步保存到MySQL
5.自定义DownloadMiddleware下载器中间件,将Selenium + Chromedriver集成到Scrapy中模拟浏览器行为爬取动态网页
6.实现整站爬取
后期待扩展的功能:
1.使用随机请求头中间件
2.使用ip代理池中间件来解决反爬虫问题
3.考虑异常中断的情况,并设置中断重连模块
4. ...
项目主要截图↓:
1.需要爬取的简书网文章列表页,“阅读更多”需要ajax异步加载,则需要使用Selenium+Chromedriver实现爬取↓
2.自动爬取页面,见“Chrome正受到自动测试软件的控制”,Selenium+Chromedriver已经实现↓
3.文章末尾,推荐的“文章主题”,Selenium+Chromedriver模拟浏览器行为↓
4.文章末尾,推荐的“文章主题”,Selenium+Chromedriver模拟浏览器行为↓
5.项目结构,以及console控制台输出运行结果↓
6.运用Scrapy Shell进行测试↓
7.运行Scrapy Shell对获取items的xpath语法进行测试↓
8.使用MySQL数据库图形化操作工具Navicat Premium 12对数据库进行操作,图为设计表,添加的字段↓
9.将爬取下来的数据存储的MySQL中,定义的字段所对应的值↓
10.爬取下来的数据异步保存到MySQL数据库中↓
-
Notifications
You must be signed in to change notification settings - Fork 0
Mocha-Pudding/Scrapy_jianshuSpider
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
【项目实战】简书网整站爬虫
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published