爬虫基本原理（爬虫的工作原理）-FinClip官网

爬虫基本原理（爬虫的工作原理）

网友投稿 906 2022-09-22

爬虫基本原理（爬虫的工作原理）

爬虫基本原理

一、爬虫是什么?

百度百科和维基百科对网络爬虫的定义：简单来说爬虫就是抓取目标网站内容的工具，一般是根据定义的行为自动进行抓取, 对网页或数据的分析与过滤；抓取的网页URL进行爬行策略

爬虫要做的是什么？

我们所谓的上网便是由用户端计算机发送请求给目标计算机，将目标计算机的数据-到本地的过程。

用户获取网络数据的方式是：

浏览器提交请求->-网页代码->解析/渲染成页面。

爬虫程序要做的就是：

模拟浏览器发送请求->-网页代码->只提取有用的数据->存放于数据库或文件中

区别在于:

我们的爬虫程序只提取网页代码中对我们有用的数据

为什么要做爬虫

爬虫的价值：

互联网中最有价值的便是数据，比如天猫商城的商品信息，链家网的租房信息，雪球网的证券投资信息等等，

这些数据都代表了各个行业的真金白银，可以说，谁掌握了行业内的第一手数据，谁就成了整个行业的主宰，如果把整个互联网的数据比喻为一座宝藏，

那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏，掌握了爬虫技能，你就成了所有互联网信息公司幕后的老板，换言之，它们都在免费为你提供有价值

二、爬虫的基本流程

三、请求与响应

#http协议：

#Request：用户将自己的信息通过浏览器（socket client）发送给服务器（socket server）

#Response：服务器接收请求，分析用户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图片，js，css等）

#ps：浏览器在接收Response后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有用数据。

四、Request

#! /usr/bin/env python

# -*- coding: utf-8 -*-

import requests

from urllib.parse import urlencode

# 请求方式

kwords = input("请输入关键字:>>").strip()

res = urlencode({"wd":kwords}) # # 请求的url,当你在百度输入中文的时候，你把url拿下来会变成下面的这样格式的url，所以得urlencode一下

url ="https://baidu.com/s?"+res #https://baidu.com/s?wd=%E5%9B%BE%E7%89%87

response = requests.get(

# 请求的url,当你在百度输入中文的时候，你把url拿下来会变成下面的这样格式的url

url,

# 请求头

headers={

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "

"Chrome/63.0.3239.108 Safari/537.36",

)

with open("a.html","w",encoding="utf-8") as f:

f.write(response.text)

print(response.status_code)

#! /usr/bin/env python

# -*- coding: utf-8 -*-

import requests

from urllib.parse import urlencode

kwords = input("请输入关键字:>>").strip()

response = requests.get(

"https://baidu.com/s?",

# 请求的url,当你在百度输入中文的时候，你把url拿下来会变成下面的这样格式的url

params={

"wd": kwords,

'pn': 20

# 请求头

headers={

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36",

)

with open("b.html", "w", encoding="utf-8") as f:

f.write(response.text)

print(response.status_code)

五 Response

六总结

1、总结爬虫流程：爬取--->解析--->存储

2、爬虫所需工具：

请求库：requests,selenium

解析库：正则，beautifulsoup，pyquery

存储库：文件，MySQL，Mongodb，Redis

3、爬虫常用框架： scrapy

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

906 2022-09-22

爬虫基本原理（爬虫的工作原理）

洞察纵观鸿蒙next版本，如何凭借FinClip加强小程序的跨平台管理，确保企业在数字化转型中的高效运营和数据安全？

洞察金融行业需要转型，如何利用鸿蒙app开发提升运营效率

洞察在数字化转型过程中，信创推动企业有效整合资源，实现低成本、高效率的跨平台小程序运营。

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计