Skip to content

Mocha-Pudding/Scrapy_jianshuSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Scrapy_jianshuSpider

【Scrapy框架实战】简书网整站爬虫

功能点如下↓:
1.使用Scrapy框架
2.使用Crawl Spider爬虫对相同规则结构url进行爬取
3.将爬取下来的数据保存到MySQL数据库中
4.改进数据保存方式,采用twisted异步保存到MySQL
5.自定义DownloadMiddleware下载器中间件,将Selenium + Chromedriver集成到Scrapy中模拟浏览器行为爬取动态网页
6.实现整站爬取

后期待扩展的功能:
1.使用随机请求头中间件
2.使用ip代理池中间件来解决反爬虫问题
3.考虑异常中断的情况,并设置中断重连模块
4. ...


项目主要截图↓:


1.需要爬取的简书网文章列表页,“阅读更多”需要ajax异步加载,则需要使用Selenium+Chromedriver实现爬取↓

ScreenShot 1


2.自动爬取页面,见“Chrome正受到自动测试软件的控制”,Selenium+Chromedriver已经实现↓

ScreenShot 2


3.文章末尾,推荐的“文章主题”,Selenium+Chromedriver模拟浏览器行为↓

ScreenShot 3


4.文章末尾,推荐的“文章主题”,Selenium+Chromedriver模拟浏览器行为↓

ScreenShot 4


5.项目结构,以及console控制台输出运行结果↓

ScreenShot 5


6.运用Scrapy Shell进行测试↓

ScreenShot 6


7.运行Scrapy Shell对获取items的xpath语法进行测试↓

ScreenShot 7


8.使用MySQL数据库图形化操作工具Navicat Premium 12对数据库进行操作,图为设计表,添加的字段↓

ScreenShot 8


9.将爬取下来的数据存储的MySQL中,定义的字段所对应的值↓

ScreenShot 9


10.爬取下来的数据异步保存到MySQL数据库中↓

ScreenShot 10

About

【项目实战】简书网整站爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages