【Python必学】Python爬虫反爬策略你肯定不会吧？（爬虫反爬机制）-FinClip官网

【Python必学】Python爬虫反爬策略你肯定不会吧？（爬虫反爬机制）

网友投稿 1480 2022-09-10

【Python必学】Python爬虫反爬策略你肯定不会吧？（爬虫反爬机制）

前言

正文

Python爬虫反爬策略三部曲，拥有这三步曲就可以在爬虫界立足了:

浏览器伪装

IP代理池和用户代理池构建

动态页面加载解决方法

注意：如果你Python基础不够扎实，建议先学好再来，缺Python最新教程的可以点击下方链接自行获取

http://note.youdao.com/noteshare?id=a3a533247e4c084a72c9ae88c271e3d1

网站反爬机制常用的方法：

1、通过识别访问的headers来判断是爬虫还是浏览器访问，其中最常用和最重要的就是User-Agent用户代理，服务器可以从这个字段识别出客户端浏览器类型和版本号、客户端的操作系统，页面排版等信息，正是因为这个原因手机和电脑打开的同个网站的页面的排版是不同的，常用的还有Referer等字段；

2、通过用户行为，要是通过一个IP短时间内大量访问数据，该网站可能对这个IP进行短时间的禁止访问，这个可以增加访问延时时间，比如每访问一次延时time.sleep(5),延时5秒，要是爬取的数据量大的话这个爬取时间是挺蛋疼的，最好的方法就是同时构建用户代理池和IP代理池，每访问几次就换一个用户代理和IP代理就完美解决了；

3、动态页面加载，可以通过抓包分析出页面加载的规律然后构造批量请求，如果文件是加密的，可以使用selenium+phantomJS浏览器内核来访问，这个是真实的用户行为，速度比较慢，可以浏览器操作的部分交给selenium+phantomJS，爬取的功能交给爬虫实现，虽然比纯爬虫慢，但是也没办法了。

先来第一部曲

浏览器伪装

通过Request添加headers

通过Opener添加headers

批量添加headers

通过Request添加headers

import urllib.request

url="https://qiushibaike.com"

headers={"User-Agent":"Mozilla/5.0 (Windows NT6.1; WOW64) Apple\

WebKit/537.36 (KHTML, likeGecko) Chrome/69.0.3497.92 Safari/537.36"}

req=urllib.request.Request(url,headers=headers)

#对request进行封装

data=urllib.request.urlopen(req).read().decode("utf-8","ignore")

通过Opener添加headers

基本的urlopen()函数不支持验证、cookie或其他HTTP高级功能，要支持这些功能必须使用build_opener()函数来创建自己的自定义Opener对象

install_opener(opener)安装opener作为urlopen()使用的全局URL opener,即意味着以后调用urlopen()时都会使用安装的opener对象。

import urllib.request

url="https://qiushibaike.com/"

headers=("User-Agent":"Mozilla/5.0 (Windows NT6.1; WOW64) Apple\

WebKit/537.36 (KHTML, likeGecko) Chrome/69.0.3497.92 Safari/537.36")

opener=urllib.request.build_opener()

opener.addheaders=[headers]

data=opener.open(url).read()

#使用自定义的伪装浏览器进行访问

urllib.request.install_opener(opener)

data=urllib.request.urlopen(url).read().decode("utf-8","ignore")

#也可以安装为全局，意味着以后调用urlopen()函数都会使用安装的opener对象

通过批量添加headers

import urllib.request

url="https://qiushibaike.com"

headers={

"User-Agent":"Mozilla/5.0 (Windows NT6.1; WOW64) Apple\

WebKit/537.36 (KHTML, likeGecko) Chrome/69.0.3497.92 Safari/537.36",

"Referer":"https://qiushibaike.com"

}

#这里只是做一个演示，可以添加更多的字段，有些字段是不用的，有些字段是要的，这个可以进行抓包分析请求需求

opener=urllib.request.build_opener()

headerall=[]

for key,value in headers.item():

item=(key,value)

headerall.apend(item)

#[("",""),("","")] 遍历存储以后的形式

opener.addheaders=headersall

urllib.request.install_opener(opener)

data=urllib.request.urlopen(url).read().decode("utf-8","ignore")

浏览器伪装可以解决大部分网站的反爬机制，大型网站反爬机制就比较复杂点了，后面更新构建IP代理和用户代理，动态页面加载的解决方法

智慧屏第三方App安装如何提升用户体验与功能拓展

1480 2022-09-10

【Python必学】Python爬虫反爬策略你肯定不会吧？（爬虫反爬机制）

app开发者平台在数字化时代的重要性与发展趋势解析

智慧屏第三方App安装如何提升用户体验与功能拓展

智慧屏安装 app如何提升家庭娱乐与教育体验的关键工具

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计