User-Profile-Image
hankin
  • 5
  • 兔子IP官方博客
  • 兔子IP官网
  • 兔子IP使用教程
  • 兔子IP资讯
                       
Help?

Please contact us on our email for need any support

Support
    首页   ›   兔子IP资讯   ›   正文
兔子IP资讯

使用爬虫IP代理的一些认知及误区

2021-11-08 11:24:43
431  0 0

很多朋友陷入了一个这样的误区,他们认为,使用了代理IP就能愉快的爬取网站了,然而,当他们遇到了困难时,他们的第一反应就是:代理IP质量有问题,不可否认,这是很有可能的原因,但不仅限于此,还有一些其他原因也是需要考虑的,下面就此列举了一些常见的限制方式。

Basic Auth

一般会有用户授权的限制,会在headers的Autheration字段里要求加入;

Referer

通常是在访问链接时,必须要带上Referer字段,服务器会进行验证,例如抓取京东的评论;

User-Agent

会要求真是的设备,如果不加会用编程语言包里自有User-Agent,可以被辨别出来;

Cookie

一般在用户登录或者某些操作后,服务端会在返回包中包含Cookie信息要求浏览器设置Cookie,没有Cookie会很容易被辨别出来是伪造请求;

也有本地通过JS,根据服务端返回的某个信息进行处理生成的加密信息,设置在Cookie里面;

Gzip

请求headers里面带了gzip,返回有时候会是gzip压缩,需要解压;

JavaScript加密操作

一般都是在请求的数据包内容里面会包含一些被javascript进行加密限制的信息,例如新浪微博会进行SHA1和RSA加密,之前是两次SHA1加密,然后发送的密码和用户名都会被加密;

其他字段

因为http的headers可以自定义地段,所以第三方可能会加入了一些自定义的字段名称或者字段值,这也是需要注意的。

真实的请求过程中,其实不止上面某一种限制,可能是几种限制组合在一次,比如如果是类似RSA加密的话,可能先请求服务器得到Cookie,然后再带着Cookie去请求服务器拿到公钥,然后再用js进行加密,再发送数据到服务器。所以弄清楚这其中的原理,并且耐心分析很重要。

评论 (0)

点击这里取消回复。

欢迎您 游客  

近期文章
  • 解决欢乐密传多开经验值收益减少的问题
  • 避开矩阵 IP 限制,教你如何实现一机一 IP 方法
  • 虚拟机多开如何设置切换不同IP的方法
  • 我叫MT手游多开搬砖,多开注意事项
  • 切换IP地址,自媒体运营的必备技能
近期评论
    Copyright © 2025
                       兔子IP博客
    主页
    页面
    博主
    小兔兔
    小兔兔 管理员
    手机|电脑|模拟器|云手机|游戏多开进程一键换IP|动态IP无限换
    1924 文章 0 评论 2530482 浏览
    测试
    测试