本仓库 DEMO 等可能含有部分 NSFW 内容,请选择合适场合使用或查看
- 盗版小说网站的质量参差不齐,格式排版贼烂,本仓库基于这样的问题,希望可以下载资源后,本地统一处理。
- 本仓库借助强大的 lxml,使用 CSS selectors 或者 XPath 进行解析, 除了常见的纯文本的小说网站,同时还可以兼容插有文字图(用某个字的图片代替该文字)的网站。
- 本仓库借助强大的 playwright,可以执行较为复杂的操作,例如可以兼容下一页的跳转链接不是直接 URL 时的场景(点击该元素即可,但是纯粹的 lxml 是难以做到的)。
- 虽然是真的虚伪,但是我还是要说,支持正版,人人有责。
- 请使用 python 3.9+ 版本。
- 依赖包在 requirements.txt,使用
pip install Package_name==version
命令(例如pip install lxml==4.6.3
)安装即可。 - main_crawler.py 负责下载小说到本地。
- main_reader.py 负责把本地小说展示出来(用网页浏览)。
- conf/rule.toml 负责小说提取规则。