Scrapy_jianshuSpider

【Scrapy框架实战】简书网整站爬虫

功能点如下↓：
1.使用Scrapy框架
2.使用Crawl Spider爬虫对相同规则结构url进行爬取
3.将爬取下来的数据保存到MySQL数据库中
4.改进数据保存方式，采用twisted异步保存到MySQL
5.自定义DownloadMiddleware下载器中间件，将Selenium + Chromedriver集成到Scrapy中模拟浏览器行为爬取动态网页
6.实现整站爬取

后期待扩展的功能：
1.使用随机请求头中间件
2.使用ip代理池中间件来解决反爬虫问题
3.考虑异常中断的情况，并设置中断重连模块
4. ...

项目主要截图↓：

1.需要爬取的简书网文章列表页，“阅读更多”需要ajax异步加载，则需要使用Selenium+Chromedriver实现爬取↓

2.自动爬取页面，见“Chrome正受到自动测试软件的控制”，Selenium+Chromedriver已经实现↓

3.文章末尾，推荐的“文章主题”，Selenium+Chromedriver模拟浏览器行为↓

4.文章末尾，推荐的“文章主题”，Selenium+Chromedriver模拟浏览器行为↓

5.项目结构，以及console控制台输出运行结果↓

6.运用Scrapy Shell进行测试↓

7.运行Scrapy Shell对获取items的xpath语法进行测试↓

8.使用MySQL数据库图形化操作工具Navicat Premium 12对数据库进行操作，图为设计表，添加的字段↓

9.将爬取下来的数据存储的MySQL中，定义的字段所对应的值↓

10.爬取下来的数据异步保存到MySQL数据库中↓

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.idea		.idea
Scrapy_jianshuSpider		Scrapy_jianshuSpider
images		images
.gitattributes		.gitattributes
README.md		README.md
scrapy.cfg		scrapy.cfg
start.py		start.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Scrapy_jianshuSpider

About

Releases

Packages

Languages

Mocha-Pudding/Scrapy_jianshuSpider

Folders and files

Latest commit

History

Repository files navigation

Scrapy_jianshuSpider

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages