Skip to content

稳定工作4年的微信公众号爬虫 Based on python and vuejs 微信公众号采集 Python爬虫 公众号采集 公众号爬虫 公众号备份

Notifications You must be signed in to change notification settings

archerjok/weixin_crawler

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

86 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Github主页 | 官网 | 4K视频介绍 | 完整用户界面展示.pdf | 源代码结构

1 2 3 4 5 6



7

weixin_crawler 已于2019年更名为 wcplusPro,不再免费提供源代码。更名之前的最新的源代码(最后更新于2019年3月),仍然开源,位于项目的 weixin_crawler/ 路径下,可能已经无法直接运行,仅供学习之用,使用方法见文档。本文仅介绍 wcplusPro 的技术和功能特性。

wcplusPro 提供了:

  • 稳定的公众号数据采集服务
  • 面向公众号的分析报告
  • 公众号全文检索

你可以按照使用时长购买订阅版,也可以直接购买源代码。如果不确 wcplusPro 是否满足需求,请在官网首页申请试用。

功能特性

  1. 采集任意公众号的全部历史文章数据,这些数据包括:
    • 公众号的名称
    • 标题、封面链接、作者、摘要、发布时间(精确到秒)、版权标志、发文IP属地
    • 文章位置(头条、次1条等)
    • 永久文章链接
    • 图文内容(包括文章开头的原创标识和文末的原文链接,用户可进一步提取图文中的文字和图片)
    • 阅读数量、点赞数量、在看数量、评论数量、打赏数量 在内的数据。
  2. 提供面向公众号的分析报告
    • 阅读数据全景图,包括阅读量、点赞量、阅读量、赞赏量、在看量、评论量
    • 全部历史文章列表,可以筛选、排序
    • 数据报告卡片:文章数据报告卡片、时间数据报告卡片、影响力数据报告卡片、发文IP属地数据报告卡片
    • 发文周历统计报告
  3. 公众号全文检索
    • 所有已经采集公众号的标题、作者、摘要全文检索
    • 单个公众号的标题、作者、摘要、正文全文检索

详细功能介绍请查看官网文档

技术特性

  • 自带安装脚本、运行脚本,点击鼠标就能完成所有的安装和运行工作,零技术要求。
  • 提供详细在线使用文档、QA手册。
  • 前后端分离,使用 socketio 做前后端实时通信

前端

  • 前端框架 vue2,打包 webpack
  • 图表 ECharts
  • 部分 UI 组件 Element
  • http 请求 axios
  • 图标 Font Awesome

后端

  • 经典 MVC 架构
  • 纯 Python 编写,支持 Python3.7 及其更高版本
  • web 框架 tornado
  • 异步网络请求 tornado
  • 数据库 sqlite
  • 爬虫加速 Python 协程
  • 前后端实时通信 socketio

申请试用

试用版,足够完成对1个公众号,全部历史文章的采集。无论是几十篇文,还是数万篇文章 wcplusPro试用版 申请方法

版本更新

8.06 / 2023年2月8日 订阅版
  • 修复中国大陆以外地区,授权验证不准确的问题
8.05 / 2023年2月2日 订阅版
  • 优化安装ID生成算法,修复某些情况下授权证书突然失效的问题
8.04 / 2023年1月17日 订阅版
  • 支持创建 Docker 容器运行,Linux 系统安装 wcplusPro 更简单
  • 优化导出 html 文章内容的图片显示方式
8.03 / 2023年1月8日 订阅版
  • 优化授权验证算法,非中国北京市 (GMT+8)时间地区,授权识别更准确
8.02 / 2022年12月24日 订阅版
  • 优化macos下安装脚本,安装运行wcplusPro更简单
8.01 / 2022年12月05日 订阅版
  • 在帮助页面可以直接下载最新版本的wcplusPro,更新软件更简单
8.0 / 2022年11月25日 订阅版
  • 支持通过点击文章链接获取所有参数,无需再点击 qq.com,参数获取速度更快
  • 帮助页面可直接看到 IP 地址,简化代理设置过程
  • 增加手机远程通知,可第一时间了解任务进度和状态
7.57 / 2022年11月18日
  • macOS 下支持通过桌面版微信获取参数(Beta)
  • 支持自动代理模式,简化获取参数前的代理设置工作
7.56 / 2022年10月31日
  • 导出的 CSV 文件增加原文 html 文件名,方便找到原文
7.55 / 2022年10月26日
  • 左边菜单栏更改为默认不显示,通过左上角按钮可弹出菜单。增加了屏幕利用率的同时,也让界面更加简洁
  • 去除了所有表格的边框
7.54 / 2022年10月16日
  • 对已采集的数据 增加百分比显示 每个公众号的数据状态一目了然
  • 百分比搭配进度条、颜色标签 更加直观展示数据状态
  • 重新设计了多彩文章列表UI
7.53 / 2022年10月13日
  • 修复已知的UI逻辑错误
7.52 / 2022年9月6日
  • 新增导出 Excel 完成后 自动打开导出的文件
  • 修复 Windows 下直接使用 Excel 查看导出文件乱码的问题
7.51 / 2022年8月20日
  • 搜索结果增加文章封面显示
  • 修复全文检索遇到无发文日期文章时,无法显示搜索结果的错误
7.5 / 2022年7月25日
  • 新增公众号报告全文精确检索
  • 新增公众号报告统计数据卡片,统计数量、时间、影响力、发文地区信息
  • 优化公众号报告文周历
  • 优化UI视觉
7.43 / 2022年7月15日
  • 新增复制微信历史文章主页链接到剪切板
7.42 / 2022年7月2日
  • 修复按时段区间采集阅读数据的bug
  • 修复微信读书参数背景颜色显示的错误
7.41 / 2022年6月9日
  • 源码版支持 Python3.7.7 及更高版本,更低版本未做严格测试
7.4 / 2022年6月8日
  • 新增订阅版,可按时长购买 wcplusPro
7.31 / 2022年6月3日
  • 修复搜集文章内容偶尔提示 Netowrk error 的 bug
7.3 / 2022年5月31日
  • 新增搜集发文地区, 可在全部历史文章列表日期和地区栏查看
7.2 / 2022年4月17日
  • 新增历史任务日历热点图
  • 阅读数据全景图增加在看数据
  • 公众号报告增加发文日历热点图
7.1 / 2022年4月13日
  • 新增搜索功能,可按照标题、摘要、作者 关键词精确搜索
  • 新增搜索结果多种排序方式
  • 新增搜索结果月份指数
7.05 / 2022年4月4日
  • 添加导出到 Excel 的功能
  • 修复运行 windows_install_package.bat 闪退的 bug
  • 修复搜集阅读量为 0 文章的阅读数据时,提示 out of date 的错误
7.04 / 2022年3月27日
  • 增加更新检查功能
7.03 / 2022年3月25日
  • 修复已知 bug
7.02 / 2022年3月24日
  • 修复 windows 下保存文章原文失败的错误
7.01 / 2022年3月22日
  • 简化安装和使用步骤,双击鼠标即可完成所有工作
  • 增加 window 系统双击安装Python依赖脚本
  • 增加 window 系统双击安装运行wcplusPro脚本
  • 增加 macos 双击安装Python依赖脚本
  • 增加 macos 双击安装运行wcplusPro脚本
7.0 / 2022年3月21日
  • 使用协程重写了全部后端,所有网络请求均为异步模式,增强了代码可维护性,二次开发成本更低
  • 数据库从 mysql 改为 sqlite,使用无需单独运行数据库,降低了对系统资源的占用
  • 重新设计了任务板块 UI,创建任务、任务状态、任务进度、参数、历史任务一目了然
  • 增加数据搜集过程实时推送用户界面的功能,无需要在终端观察任务进度
  • 增加历史任务管理功能,完整记录所有的历史任务
  • 优化了公众历史文章列表,浏览文章数量超过 5000 的公众号更加流畅
  • 增加了配套网站 wcplus.cn 提供在线文档在内的多种功能
  • 增加检查更新功能
6.62 / 2022年2月25日
  • 公众号报告增加所有阅读量10万+文章专栏
  • 增加文章 在看/点赞比、赞赏/在看比
6.61 / 2022年2月20日
  • 修复已知 bug
6.6 / 2022年2月19日
  • 新增公众号报告 统计阅读量、点赞、在看数据历史变化趋势
  • 升级前端工程 运行前端项目更加简单
  • 修复无法通过 qq.com 跳转到公众号主页的错误
  • 新增管理登陆功能
6.31 / 2022年1月7日
  • 修改代理服务器仅对微信和微信读书有效
  • 移除代理服务器无关日志信息
6.3 / 2021年11月10日
  • 修复macOS Monterey 隔空播放占用 5000 端口的冲突
6.23 / 2021年10月20日
  • 修复已知 bug
6.22 / 2021年9月20日
  • 修复通过微信读书采集阅读数据提示 keyError subscene 的错误
  • 修复其他已知 bug

联系购买

邮箱: [email protected] 点击邮箱地址可直接发送邮件

微信: wonderfulcorporation,也可以通过扫码添加客服(请备注 wcplusPro)

About

稳定工作4年的微信公众号爬虫 Based on python and vuejs 微信公众号采集 Python爬虫 公众号采集 公众号爬虫 公众号备份

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 97.1%
  • HTML 2.8%
  • CSS 0.1%