加入收藏 | 设为首页 | 会员中心 | 我要投稿 宣城站长网 (https://www.0563zz.cn/)- 数据湖、行业智能、边缘计算、开发、备份!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

关于 Python 反爬虫

发布时间:2021-02-24 12:31:46 所属栏目:外闻 来源:互联网
导读:在设计反爬虫系统之前,我们先来看看爬虫会给网站带来什么问题? 本质上来说,互联网上可以供人们浏览、查看和使用的网站及其网站上的数据,都是公开和允许获取的,所以并不存在于所谓的非法授权访问问题。 爬虫程序访问网页和人访问网页没有本质区别,都是由

在设计反爬虫系统之前,我们先来看看爬虫会给网站带来什么问题?

本质上来说,互联网上可以供人们浏览、查看和使用的网站及其网站上的数据,都是公开和允许获取的,所以并不存在于所谓的“非法授权访问”问题。

爬虫程序访问网页和人访问网页没有本质区别,都是由客户端向网站服务器发起HTTP请求,网站服务器接收到请求之后将内容响应返回给客户端。

只要是发起请求,网站服务器必然要进行响应,要进行响应,必然要消耗服务器的资源。

网站的访问者与网站之间是互相互惠互利的关系,网站为访问者提供了自己所需要的必要的信息和服务,而访问者也为网站带来了流量、访客、活跃度。所以网站的所有者会愿意消耗服务器的带宽、磁盘、内存,为访问者提供服务。

而爬虫程序呢?无异于白嫖党。成倍地消耗网站服务器资源、占用服务器带宽,却不会为网站带来一丝的利益,甚至于,最后的结果是有损于网站本身的。

爬虫,可能算得上是互联网里的非洲鬣狗了,也难怪遭网站的所有者讨厌了。

二、识别爬虫

既然讨厌爬虫,所以要将爬虫拒之于网站的门外了。要拒绝爬虫的访问,首先当然要识别出网络访问者中的爬虫程序。如何识别呢?


 

(编辑:宣城站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读