细说小白学python爬虫过程中常见的反爬措施及解决思路（干货）（反爬虫方法）-FinClip官网

细说小白学python爬虫过程中常见的反爬措施及解决思路（干货）（反爬虫方法）

网友投稿 3604 2022-09-19

细说小白学python爬虫过程中常见的反爬措施及解决思路（干货）（反爬虫方法）

最近有很多朋友和我讨论python爬虫遇到的反爬措施及解决办法，今天我就给大家分享一下自己在爬虫过程中遇到的坑及解决思路，希望对大家有所帮助。

看不见的反爬措施

一是加header头部信息：

什么是header头？以火狐浏览器为例，右键—查看元素—进入网络界面，然后输入https://baidu.com进入百度主页：

红框内的部分就是该次请求的header头，服务器可以根据header头判断该次请求是由哪种浏览器（User-Agent）发起、访问的目标链接是从哪个网页跳转过来的（Referer）以及服务器地址（Host）。

1.加User-Agent值：

如果不加header头，部分网站服务器判断不到用户的访问来源，所以会返回一个404错误来告知你是一个爬虫，拒绝访问，解决办法如下：

这样服务器就会把用户当做浏览器了。建议每次爬虫都把User-Agnet头加上，起码是对人家网站的尊重

2.加Referer值

这类反爬网站也很常见，例如美团，仅仅加User-Agnet还是返回错误信息，这时就要把Referer值也加到头部信息中：

这样就会返回正常网页了。

3.加Host值

根据同源地址判断用户是否为爬虫，解决办法为：

4.加Accept值

之前遇到过这种网站，我加了一圈header头部信息才成功，最后发现是需要加Accept值，这类反爬措施的解决办法为：

关于header头的反爬，建议在加上User-Agent失败之后，就把所有头部信息加上，最后用排除法选出到底是哪个值。

二是限制IP的请求数量：

这种就更常见了，大部分网站都有此类反爬措施，也就是说网站服务器会根据某个ip在特定时间内的访问频率来判断是否为爬虫，然后把你把你拉进“黑名单”，素质好的给你返回403或者出来个验证码，素质不好的会给你返回两句脏话。此种情况有两种解决办法：

①降低爬虫请求速率，但是会降低效率；

②添加代理ip，代理ip又分为付费的和不要钱的，前者比较稳定，后者经常断线。

添加格式为：

三是Ajax动态请求加载：

这类一般是动态网页，无法直接找到数据接口，以某易新闻网站为例：

我想爬取该网页内的新闻图片，发现它的网页url一直不变，但是下拉网页的时候会一直加载图片，那么我们该怎么办呢？

首先按照开头方式打开流量分析工具

点击左上角“垃圾桶”图标清空缓存，然后下拉新闻网页：

会出现一大堆东西，但是不用慌，我们可以根据类型去寻找，一般图片信息肯定实在html、js或json格式的文件中，一个一个点进去看看，很快就找到了结果：

结果中把callback去掉之后就是个json文件，它的url为：

红线处为变量，02代表第2页，这样就找到图片接口啦。

看的见的反扒措施

一是登录才有数据，比如某查查：

这种一般有三种解决办法，一是requests模拟登录，但是会有参数加密的问题和验证码的问题，有点难；二是selenium模拟登录，要解决验证码的问题；三是手动登录后获取cookie，在requests中加入cookie，这种方法比较简单，但是受cookie有效期的限制，要经常更换cookie。

关于验证码的问题，我很头大，因为验证码实在是种类太多了，而且还很变态，例如下图:

我用眼都很难瞅出来，程序就更难说了，索性直接用打码网站，价格不贵，准确率又低。

二是限制网页返回数据条数：

例如微博评论，最多只能返回50页的评论数据，这种反扒措施暂时没有好的解决办法，除非能找到特殊接口。

三是多次验证：

例如12306网站，用requests实现自动抢票时，浏览器会和服务器进行多次交互验证，有的验证虽然不返回任何数据，但是还必须要有，否则下一个url的请求就会出错。

四是网站数据加密：

也就是说网站服务器返回的数据经过某种加密算法进行加密，这个时候你就要学习前端知识了，因为加密方式一般都隐藏在JavaScript代码中，如果你学会这一技能，基本可以应聘爬虫工程师的岗位了。

五是APP数据：

没有网页数据，例如二手交易平台某鱼

爬这类数据一般有两种方法：一是边爬边处理，即用appium模拟点击滑动手机界面，然后用mitmdump在后端监测并保存数据，这种方法比较简单；二是做逆向分析，这个过程是很难的，目前这部分知识小编也正在学习中，希望有机会能和大家一起交流。

以上都是我在爬虫实践中遇到的一些反爬措施，希望能对大家的爬虫学习之路起到抛砖引玉的作用。

看不见的反爬措施

一是加header头部信息：

什么是header头？

以火狐浏览器为例，右键—查看元素—进入网络界面，然后输入https://baidu.com进入百度主页：

红框内的部分就是该次请求的header头，服务器可以根据header头判断该次请求是由哪种浏览器（User-Agent）发起、访问的目标链接是从哪个网页跳转过来的（Referer）以及服务器地址（Host）。1.加User-Agent值：

如果不加header头，部分网站服务器判断不到用户的访问来源，所以会返回一个404错误来告知你是一个爬虫，拒绝访问，解决办法如下：

这样就会返回正常网页了。3.加Host值

根据同源地址判断用户是否为爬虫，解决办法为：

4.加Accept值

之前遇到过这种网站，我加了一圈header头部信息才成功，最后发现是需要加Accept值，这类反爬措施的解决办法为：

关于header头的反爬，建议在加上User-Agent失败之后，就把所有头部信息加上，最后用排除法选出到底是哪个值。二是限制IP的请求数量：这种就更常见了，大部分网站都有此类反爬措施，也就是说网站服务器会根据某个ip在特定时间内的访问频率来判断是否为爬虫，然后把你把你拉进“黑名单”，素质好的给你返回403或者出来个验证码，素质不好的会给你返回两句脏话。此种情况有两种解决办法：

①降低爬虫请求速率，但是会降低效率；②添加代理ip，代理ip又分为付费的和不要钱的，前者比较稳定，后者经常断线。

添加格式为：

三是Ajax动态请求加载：

这类一般是动态网页，无法直接找到数据接口，以某易新闻网站为例：

我想爬取该网页内的新闻图片，发现它的网页url一直不变，但是下拉网页的时候会一直加载图片，那么我们该怎么办呢？首先按照开头方式打开流量分析工具

点击左上角“垃圾桶”图标清空缓存，然后下拉新闻网页：

结果中把callback去掉之后就是个json文件，它的url为：

红线处为变量，02代表第2页，这样就找到图片接口啦。看的见的反扒措施一是登录才有数据，比如某查查：

这种一般有三种解决办法，一是requests模拟登录，但是会有参数加密的问题和验证码的问题，有点难；二是selenium模拟登录，要解决验证码的问题；三是手动登录后获取cookie，在requests中加入cookie，这种方法比较简单，但是受cookie有效期的限制，要经常更换cookie。关于验证码的问题，我很头大，因为验证码实在是种类太多了，而且还很变态，例如下图:

我用眼都很难瞅出来，程序就更难说了，索性直接用打码网站，价格不贵，准确率又低。二是限制网页返回数据条数：

例如微博评论，最多只能返回50页的评论数据，这种反扒措施暂时没有好的解决办法，除非能找到特殊接口。

三是多次验证：

四是网站数据加密：

也就是说网站服务器返回的数据经过某种加密算法进行加密，这个时候你就要学习前端知识了，因为加密方式一般都隐藏在JavaScript代码中，如果你学会这一技能，基本可以应聘爬虫工程师的岗位了。五是APP数据：

没有网页数据，例如二手交易平台某鱼

爬这类数据一般有两种方法：一是边爬边处理，即用appium模拟点击滑动手机界面，然后用mitmdump在后端监测并保存数据，这种方法比较简单；二是做逆向分析，这个过程是很难的，目前这部分知识小编也正在学习中，希望有机会能和大家一起交流。以上都是我在爬虫实践中遇到的一些反爬措施，希望能对大家的爬虫学习之路起到抛砖引玉的作用。

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

3604 2022-09-19

细说小白学python爬虫过程中常见的反爬措施及解决思路（干货）（反爬虫方法）

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

洞察金融行业需要转型，如何利用鸿蒙app开发提升运营效率

洞察在数字化转型过程中，信创推动企业有效整合资源，实现低成本、高效率的跨平台小程序运营。

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计