前后端分离了,然后呢?(什么前后端分离)
1231
2022-08-06
通俗一点了解python爬虫是什么?(爬虫python入门是什么)
相信很多人在网上看到很多关于Python爬虫的解释,但是总是觉得云里雾里,看似了解却不知怎么和其他人解释,所以本文就通俗的和大家说说Python爬虫是什么。
爬虫
顾名思义,“爬来爬去的虫子”,听着都觉得瘆得慌。没错,这个虫子就是偷偷摸摸去爬别人的数据。(可想而知一般不受欢迎)可以形象理解为小偷,偷偷摸摸到别人家里偷值钱的东西。➡ 问题来了:
1、你得知道地址吧。url 换种角度理解就是资源位置。
2、到了家门口,礼貌一点你得问问能不能来“偷”东西? 得到允许了(事实上很多人压根不知道,这个允许指的是另一个层面的允许,比如你没有装防盗窗没有装锁,门还开着,这不就是“允许”吗?) robots协议。
3、房子很大,我只想要最值钱的珠宝,藏在哪里?
4、好不容易珠宝到手了,我得考虑如何保存吧。
(源代码)显然可能很大很大,这对你来说不是好事,意味着东西难找啊。这里就有很多方法了。比如一般来说之前的藏在保险柜里,而保险柜一般在。。。特殊的定位查找方法。
爬虫怎么玩?
在互联网上许许多多的网站它们都是托管在服务器上的,这些服务器 24 小时运行着时时刻刻,兢兢业业的等待着别人的请求。所以我们的爬虫,首先会模拟请求,就好像你在浏览器输入网址,然后回车那样。爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息)大多数的服务器呢,以为是浏览器发送请求,就直接返回数据给爬虫了,
当然了,有一些网站比较精明,所以他们会建立一些反爬虫机制,但是,对于我们来说,不在话下,这个是后话了!反正这个时候呢,服务器把数据返回给我们了,那么我们就可以对这些数据进行操作了。
不同的情况下,服务器返回给我们的数据格式不一样。有HTML、JSON、二进制的数据啦。根据不同的情况,我们可以使用不同的方式对他们进行处理。处理完之后我们就可以对他们进行保存啦,保存的方式也有几种:数据库、硬盘、等等..
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~