关于 Python 反爬虫

发布时间：2021-02-24 12:31:46 所属栏目：外闻来源：互联网

导读：在设计反爬虫系统之前，我们先来看看爬虫会给网站带来什么问题? 本质上来说，互联网上可以供人们浏览、查看和使用的网站及其网站上的数据，都是公开和允许获取的，所以并不存在于所谓的非法授权访问问题。爬虫程序访问网页和人访问网页没有本质区别，都是由

在设计反爬虫系统之前，我们先来看看爬虫会给网站带来什么问题?

本质上来说，互联网上可以供人们浏览、查看和使用的网站及其网站上的数据，都是公开和允许获取的，所以并不存在于所谓的“非法授权访问”问题。

爬虫程序访问网页和人访问网页没有本质区别，都是由客户端向网站服务器发起HTTP请求，网站服务器接收到请求之后将内容响应返回给客户端。

只要是发起请求，网站服务器必然要进行响应，要进行响应，必然要消耗服务器的资源。

网站的访问者与网站之间是互相互惠互利的关系，网站为访问者提供了自己所需要的必要的信息和服务，而访问者也为网站带来了流量、访客、活跃度。所以网站的所有者会愿意消耗服务器的带宽、磁盘、内存，为访问者提供服务。

而爬虫程序呢?无异于白嫖党。成倍地消耗网站服务器资源、占用服务器带宽，却不会为网站带来一丝的利益，甚至于，最后的结果是有损于网站本身的。

爬虫，可能算得上是互联网里的非洲鬣狗了，也难怪遭网站的所有者讨厌了。

二、识别爬虫

既然讨厌爬虫，所以要将爬虫拒之于网站的门外了。要拒绝爬虫的访问，首先当然要识别出网络访问者中的爬虫程序。如何识别呢?

（编辑：宣城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

NASA将计划周三对登月	费时2年打造传Zoom计
谷歌高空气球项目绝处	弹丸之国以色列如何创