User-Profile-Image
hankin
  • 5
  • 兔子IP官方博客
  • 兔子IP官网
  • 兔子IP使用教程
  • 兔子IP资讯
                       
Help?

Please contact us on our email for need any support

Support
    首页   ›   兔子IP资讯   ›   正文
兔子IP资讯

使用代理IP进行信息采集:如何判断是爬虫行为

2021-07-31 17:01:02
790  0 0

Python爬虫并不是真实的用户,他的行为模式和真正的用户还是有区别的,所以网站通常会采用测试用户行为模式去分辨目前浏览的用户到底是人还是爬虫机器。那么网站究竟通过什么途径来实现检测的呢?现在就和带你们来看一看。

1.浏览目的

爬虫通常不会抓取css、js等一些资源文件。假如是垂直爬虫,一般浏览信息有明确的目标,假如察觉到一些ip浏览某个页面超出了正常的访问次数,并且ip不浏览别的信息,那就回被辨别为爬虫。

2.浏览频率

频率限制,每分钟高于N次访问的ip封禁,比如1个小时浏览量高于30次,则会跳出验证提示,假如验证信息填写有误,就会被拉入黑名单。

弄一个计数器,把特定ip一天内的总次数和每秒内的频率记录下来,实现实时拦截的目的

3.端口检查

用netstat检查80端口的连接:

sh netstat -nt | grep youhostip:80 | awk ” | awk -F”:” ”| sort | uniq -c | sort -r -n

这行shell能够根据80端口连接数量对来源IP完成排序,这样能够直观的分辨出来网页爬虫。通常情况下爬虫的并发连接特别高。 直接封锁爬虫所在的C网段地址。这由于一般爬虫都是运行在托管机房里面,可能在一个C段里面的多台服务器上面都有爬虫,而这个C段不可能是用户宽带上网,封锁C段能够很大程度上解决问题。

4.js埋点

把apache或nginx日志分析和js埋点对比来分析,爬虫请求在无法模拟浏览器请求的时候,无法执行js代码,页面没有埋点,但是这个请求,会在web日志中留下,js有小问题,就是用户请求的时候,如果浏览器有缓存,实际上没有请求服务器端,但是js确埋了一个点,对比分析,效果会好很多。

5.访问间隔规律

爬虫爬取网页的频率都是比较固定的,不像人去访问网页,中间的间隔时间比较无规则,所以我们可以给每个IP地址建立一个时间窗口,记录IP地址最近12次访问时间,每记录一次就滑动一次窗口,比较最近访问时间和当前时间。如果间隔时间很长判断不是爬虫,清除时间窗口,如果间隔不长,就回溯计算指定时间段的访问频率,如果访问频率超过阀值,就转向验证码页面让用户填写验证码。

综上所述,我们能够知道,网络爬虫毕竟不是人类,总会留下足迹的,所以想要获取信息,爬虫需要先进行一系列的伪装,把各方面的数据伪装好,至于不能伪装的数据–IP地址,可以使用兔子代理ip切换ip地址,这样便能顺利的采集到数据了。

评论 (0)

点击这里取消回复。

欢迎您 游客  

近期文章
  • IP地址怎么切换到别的省份?ip有哪些办法进行更换
  • 抖音IP属地隐藏或者更换全攻略 保护隐私更安全
  • 云手机与模拟器多开挂机时,为什么都需要改IP?
  • 小红薯自媒体多账号全协议IP矩阵搭建
  • 修改 IP 地址的简单实用方法与防账号封禁全指南
近期评论
    Copyright © 2025
                       兔子IP博客
    主页
    页面
    博主
    小兔兔
    小兔兔 管理员
    手机|电脑|模拟器|云手机|游戏多开进程一键换IP|动态IP无限换
    1940 文章 0 评论 2629847 浏览
    测试
    测试