此代码基于于https://github.com/jumper2014修改,仅用于学习 此代码仅供学习与交流,请勿用于商业用途,后果自负。 安装依赖 pip install -r requirements.txt 运行前,请将当前目录加入到系统环境变量PYTHONPATH中。 运行前,请指定要爬取的网站,见lib/spider/base_spider.py里面的SPIDER_NAME变量。 清理数据,运行 python tool/clean.py