-
Notifications
You must be signed in to change notification settings - Fork 1.2k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问worker有独立的标志吗 #18
Comments
主要就是通过hostname来识别各个节点的,应该可以通过broker来获取到,这个我也得去看看celery的文档才知道。还有个思路,通过系统调用 hostname 这个命令获取主机名,就是你想要的 |
|
|
因为现在的cookies获取规则不是按队列轮流吗?如果一个账号符合微博封号原则,那么cookies池里所有的号应该都符合封号规则,那么一封号所有的账号都没用了。这样爬虫程序就终止了,而且所有的任务都被刷没了(对这个设定也深表怨念🙄) 本来我考虑一个主机分配一个cookies,cookies用坏了再去取新的,这样持久力更强一些。 |
在临近被封的时间(15分钟内),我还进行了一次搜索任务 另外,这种账号被封,程序并没有检测出来,一般都是我手动把这个失效账号从redis里删除的。 |
嗯,我觉得比较经济的方案是:四个节点一个账号,用坏的取新的 选择谨慎的方案,避免封号我觉得并不划算 |
试了下,一个账号差不多只能5个节点,新开第6个节点会失败 |
发现账号都是在三个小时左右被封的。账号多也是这样。这就比较有规律了。我来总结一下你的发现:
|
阿里云那个我还没试,也去试试 😆 |
另外,兄弟,把和微博反爬虫系统相关的信息放在issue17里面,减轻大伙儿的阅读负担 |
弹性公网ip和啥机器绑定?也是弹性计算云主机? |
|
这样子的话,我们可以让一个cookie绑定到5个节点上,每当该cookies被封了,我们就从可用的cookie中拿一个出来再绑定,或者说被封了马上再模拟登陆获取一个可用的cookies.这样大概5台机器一天会丢弃8个账号左右。并且IP应该也会被暂时封一段时间。 |
还有给我讲讲你的节点是不是用的阿里云的弹性云计算节点的按量付费啊?我刚去看了,好像得充值100块钱,先还没动手,先问问你 😄 。 |
还有一个问题,我觉得不同请求,微博的容忍程度可能不一样,你啥时候帮忙单独试试,只抓取用户粉丝和关注,看看三个小时内,单个cookie会不会被封 |
每个worker是不是自动被分配一个名称,每启动一个worker,其他的worker都会显示同步这个worker.,那个名字就是主机名
我想要在代码里获得自己的名字应该怎么做?
这个名字我用来修改cookies获取规则,因为当前的cookies获取规则下,要被封号就一起被封。
The text was updated successfully, but these errors were encountered: