初识爬虫之requests库使用篇-FinClip官网

初识爬虫之requests库使用篇

网友投稿 894 2022-11-17

初识爬虫之requests库使用篇

之前我们了解过了urllib的库的使用方法，但是我们发现在实际的运用过程中，我们使用requests更加的频繁一些。它可以解决之前的一些繁琐的语法，强大的地方我们就开始看看吧！

import requestsr=requests.get("print(type(r))#类型print(r.status_code)#状态码# print(type(r.text))#响应体类型# print(r.text)#内容print(r.cookies)#cookies

它的方便之处不仅仅在于这里，它还可以用一句话来设置自己请求方法，例如我们用：requests.post(put)(delete)(head)(options)这些是不是比urllib简单的多。

get请求

r=requests.get(" "name":"bob", "age":18}r=requests.get(" "name":"bob", "age":18}r=requests.get("json （）方法，就可以将返回结果是 JSON 格式的字符串转化为字典。比如我们看看这个实例

我们请求普通的网页，来获取信息

抓取二进制数据平时我们爬虫肯定要-图片，音乐，视频，还有一些东西，这个时候我们就需要用到二进制抓取了。图片、音频、视频这些文件本质上都是由二进制码组成的，由于有特定的保存格式和对应的解析方式，我们才可以看到这些形形色色的多媒体。

r=requests.get("print(r.text) #乱码with open("E:\Python实验位置\图片\图片3\pavico.jpg","wb") as f: f.write(r.content) print("保存成功！")

这样你就可以去你的文件目录里面看看这些东西是否已经抓取成功了。

这里简单介绍一下这个东西

python 中os模块os.path.exists()含义，os.path模块主要用于文件的属性获取,exists是“存在”的意思，所以顾名思义，os.path.exists()就是判断括号里的文件是否存在的意思，括号内的可以是文件路径。

import ospath = os.path.exists('user.py')print(path)

True Process finished with exit code 0

不存在false，存在true

POST请求

和get请求差不多一样的，将get换为POST即可，例如我们可以打印一些属性值

其他

这里分别打印输出 status_code 属性得到状态码，输出 headers 属性得到响应头，输出headers属性，得到 Cookies ，输出 url 属性得到 URL ，输出 history 属性得到请求历史。

状态码有Python内置的状态码，我们可以互相比较来获得正常的响应

import requestsr = requests.get("if not r.status_code == requests.codes.ok else print("请求成功")

exit() if not r.status_code == requests.codes.ok else print("请求成功")

这个经常用到的，保障程序正常运行

高级语法

文件上传：

import requestsfiles={"file":open("文件名","rb")}r=requests.post("url",files=files)print(r.text)

里面的东西需要自己去添加，注意这个时候的文件的路径必须和该程序是一样的，在同一目录。

cookies：

首先我们要把自己的网站里面的cookies找到，之后再去复制粘贴在我们程序里面，这个也是我们经常在进行爬虫需要做的一个工作之一。它的功能就是维持我们用户的登陆状态，通常我们加入headers里面，比如我看看这个实例

爬取一些高级的网站，知乎

也可以自己获取

import requestsr=requests.get("key ,value in r.cookies.items(): print(key+"="+value)

session对象

在 requests 中，如果直接利用 get （）或 post （）等方法的确可以做到模拟网页的请求，但是这实际上是相当于不同的会话，也就是说相当于你用了两个浏览器打开了不同的页面。其实解决这个问题的主要方法就是维持同一个会话，也就是相当于打开一个新的浏览器选项卡而不是新开一个浏览器。

import requestss = requests.Session()s.get('= s.get('还提供了证书验证的功能。当发送 HTTP 请求的时候，它会检查 SSL 证书，我们可以使用 verify 参数控制是否检查此证书。其实如果不加 verify 参数的话，默认是 True ，会自动验证。

通常变为false之后，他还是会弹出警告

这里我们屏蔽警告

前方高能

代理设置

对于某些网站，在测试的时候请求几次，能正常获取内容。但是一旦开始大规模爬取，对于大规模且频繁的请求，网站可能会弹出验证码，或者跳转到登录认证页面，更甚者可能会直接封禁客户端的 IP ，导致一定时间段内无法访问。在爬取一些淘宝，京东这些反爬技术较强的网站，代理的技术不可或缺。

import requestsproxies={ " "200 状态码；如果认证失败，则返回 401 状态码。

优化：

数据结构

之前在urllib里面有request.Request这个用法，在这里我们也可以这样用

requests.Request()

from requests import Request,Sessionurl = ""data={}headers={}s=Session()req=Request("POST",url=url,data=data,headers=headers)pre=s.prepare_request(req)r=s.send(pre)print(r.text)

爬虫正则表达式也是基础，虽然Xpath比较强，但是我们还是要了解这个东西

小程序容器助力企业在金融与物联网领域实现高效合规运营，带来的新机遇与挑战如何管理？

894 2022-11-17

初识爬虫之requests库使用篇

小程序容器助力企业在金融与物联网领域实现高效合规运营，带来的新机遇与挑战如何管理？

小程序引擎如何促进企业在金融行业的数字化转型及合规运营

企业如何通过vue小程序开发满足高效运营与合规性需求

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计