现在的微博爬取一天还能针对单个关键词爬取一千万条吗？该怎么去设置才能大量爬取啊 #515

LoVei-L · 2024-11-08T03:10:26Z

No description provided.

dataabc · 2024-11-08T09:56:51Z

现在没办法了，部分参数失效了，一个日期只能获取2万多。

LoVei-L · 2024-11-09T07:05:47Z

现在没办法了，部分参数失效了，一个日期只能获取2万多。

那是不是假如要爬取的仔细一点，只能一天天爬，不能一次爬一段时间这样吧

dataabc · 2024-11-09T08:22:01Z

最好每次爬一个日期的微博，否则，设置一个长的日期段可能会漏爬。实际上，后者如果结果很多，程序也会自动按天分段爬。只不过，搜索页面有时候会随机出现一个空白页，导致程序以为爬完了而结束，部分设置的日期还没来得及爬取。单独按天爬（START_DATE和END_DATE设置为同一天），会减少这种影响。

LoVei-L · 2024-11-10T03:22:16Z

最好每次爬一个日期的微博，否则，设置一个长的日期段可能会漏爬。实际上，后者如果结果很多，程序也会自动按天分段爬。只不过，搜索页面有时候会随机出现一个空白页，导致程序以为爬完了而结束，部分设置的日期还没来得及爬取。单独按天爬（START_DATE和END_DATE设置为同一天），会减少这种影响。

好的，谢谢大佬的解答

LoVei-L · 2024-11-12T01:48:45Z

最好每次爬一个日期的微博，否则，设置一个长的日期段可能会漏爬。实际上，后者如果结果很多，程序也会自动按天分段爬。只不过，搜索页面有时候会随机出现一个空白页，导致程序以为爬完了而结束，部分设置的日期还没来得及爬取。单独按天爬（START_DATE和END_DATE设置为同一天），会减少这种影响。

还有一个问题，就是例如我爬取完10号的数据，然后在setting里将日期修改为11号，接着再次启动README里的$ scrapy crawl search -s JOBDIR=crawls/search。但是终端开始爬取的数据日期仍然为10号的，我需要将crawls下的search文件夹删除了，再次启动readme里的运行程序才能爬取11号的数据，该怎么解决这个问题啊？

dataabc · 2024-11-12T08:04:24Z

可以使用命令行scrapy crawl search

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

现在的微博爬取一天还能针对单个关键词爬取一千万条吗？该怎么去设置才能大量爬取啊 #515

现在的微博爬取一天还能针对单个关键词爬取一千万条吗？该怎么去设置才能大量爬取啊 #515

LoVei-L commented Nov 8, 2024

dataabc commented Nov 8, 2024

LoVei-L commented Nov 9, 2024

dataabc commented Nov 9, 2024

LoVei-L commented Nov 10, 2024

LoVei-L commented Nov 12, 2024

dataabc commented Nov 12, 2024

现在的微博爬取一天还能针对单个关键词爬取一千万条吗？该怎么去设置才能大量爬取啊 #515

现在的微博爬取一天还能针对单个关键词爬取一千万条吗？该怎么去设置才能大量爬取啊 #515

Comments

LoVei-L commented Nov 8, 2024

dataabc commented Nov 8, 2024

LoVei-L commented Nov 9, 2024

dataabc commented Nov 9, 2024

LoVei-L commented Nov 10, 2024

LoVei-L commented Nov 12, 2024

dataabc commented Nov 12, 2024