-
Notifications
You must be signed in to change notification settings - Fork 1.2k
PC端微博和移动端微博的未登录权限权限对比和信息完整度对比
resolvewang edited this page May 14, 2018
·
17 revisions
通过分析未登录的可以拿到的信息和信息完整度,能不登录抓取信息就不登录,尽量减小账号的压力。
对比项 | PC端 | 移动端 | 对于可见是否有具体的限制 |
---|---|---|---|
微博内容 | 不可见 | 可见 | 对于具体转发信息和评论信息的是否可以查看全,需要考察 |
微博评论信息(所有评论内容) | 直接访问ajax,待考察 | 可见 | 待考察 |
微博转发信息(所有转发节点) | 直接访问ajax,待考察 | 可见 | 待考察 |
微博搜索接口(包括所有搜索结果和高级搜索功能) | 可见 | 不可见 | PC端未登录可以使用高级搜索功能,比如让搜索内容为原创,但是只能搜索首页,不可以翻页 |
微博用户主页(包括所有微博) | 可见 | 待考察 | 待考察 |
微博用户详细信息 | 不可见 | 待考察 | 待考察 |
更新,由于精力有限,只能食言放弃对于移动端的探究了,不过发现web端的微博详细信息和微博转发和评论可以不登录全部拿到,并且搜索和用户主页的第一页也可以不通过登录拿到,但是在请求的时候需要带上两个关键Cookie键值对,具体可以参考这篇文章
经过大量分析,目前暂把微博的信息查看权限分为三类
- 未登录且不需要Cookie:该类别下面目前只发现通过搜索接口
展开全文
这一个模块。url构造方式是http://s.weibo.com/ajax/direct/morethan140?mid={}, 比如http://s.weibo.com/ajax/direct/morethan140?mid=4157622578000858 - 未登录但需要Cookie(主要是sub和subp,且对ip有一些要求,这种情况下最好把整个headers头部都序列化保存):该类别下目前发现有所有转发、所有评论、搜索第一页、用户主页等模块、指定微博的详细信息等。这种情况主要会对ip进行限制。对于转发,有两种形式的url,一种会让你登录,才能查看其它信息,另外一种则可以直接查看,为了减轻账号的压力,可以使用直接查看的那种构成方式:*http://weibo.com/aj/v6/mblog/info/big?ajwvr=6&id={}&page={}*, 比如 http://weibo.com/aj/v6/mblog/info/big?ajwvr=6&id=4158348120591284&page=12, 此处的
id
是微博的mid
。评论url是 http://weibo.com/aj/v6/comment/big?ajwvr=6&id=4158348120591284&page=4 。 - 需要登录:该方式可以查看所有正常用户能查看的信息,但是会对采集频率进行限制,成本是最高的。
如果有同学有抓取蓝v粉丝或者关注的需求,由于其只在前端进行了一些验证,所以也是可以通过构造相关粉丝或者关注进行抓取的