新手必学Python爬虫之Scrapy框架案例详解（Scrapy爬虫框架）-FinClip官网

新手必学Python爬虫之Scrapy框架案例详解（Scrapy爬虫框架）

网友投稿 1775 2022-09-18

新手必学Python爬虫之Scrapy框架案例详解（Scrapy爬虫框架）

Scrapy简介

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。

框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。另外要注意：光理论是不够的。这里顺便送大家一套2020最新python入门到高级项目实战视频教程，可以去小编的Python交流.裙：七衣衣九七七巴而五（数字的谐音）转换下可以找到了，还可以跟老司机交流讨教！

Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的-速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

Scrapy架构

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（-器）：负责-Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。

Downloader Middlewares（-中间件）：你可以当作是一个可以自定义扩展-功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

白话讲解Scrapy运作流程

代码写好，程序开始运行...

1.引擎：Hi！Spider, 你要处理哪一个网站？

2.Spider：老大要我处理xxxx.com。

3.引擎：你把第一个需要处理的URL给我吧。

4.Spider：给你，第一个URL是xxxxxxx.com。

5.引擎：Hi！调度器，我这有request请求你帮我排序入队一下。

6.调度器：好的，正在处理你等一下。

7.引擎：Hi！调度器，把你处理好的request请求给我。

8.调度器：给你，这是我处理好的request

9.引擎：Hi！-器，你按照老大的-中间件的设置帮我-一下这个request请求

10.-器：好的！给你，这是-好的东西。（如果失败：sorry，这个request-失败了。然后引擎告诉调度器，这个request-失败了，你记录一下，我们待会儿再-）

11.引擎：Hi！Spider，这是-好的东西，并且已经按照老大的-中间件处理过了，你自己处理一下（注意！这儿responses默认是交给def parse()这个函数处理的）

12.Spider：（处理完毕数据之后对于需要跟进的URL），Hi！引擎，我这里有两个结果，这个是我需要跟进的URL，还有这个是我获取到的Item数据。

13.引擎：Hi ！管道我这儿有个item你帮我处理一下！调度器！这是需要跟进URL你帮我处理下。然后从第四步开始循环，直到获取完老大需要全部信息。

14.管道``调度器：好的，现在就做！

相关推荐：《Python相关教程》

制作Scrapy爬虫步骤

1.新建项目

scrapy startproject mySpider

scrapy.cfg ：项目的配置文件

mySpider/ ：项目的Python模块，将会从这里引用代码

mySpider/items.py ：项目的目标文件

mySpider/pipelines.py ：项目的管道文件

mySpider/settings.py ：项目的设置文件

mySpider/spiders/ ：存储爬虫代码目录

2.明确目标(mySpider/items.py)

想要爬取哪些信息，在Item里面定义结构化数据字段，保存爬取到的数据。

3.制作爬虫(spiders/xxxxSpider.py)

import scrapy

class ItcastSpider(scrapy.Spider):

name = "itcast"

allowed_domains = ["itcast-"]

start_urls = (

'http://itcast-/',

)

def parse(self, response):

pass

name = "" ：这个爬虫的识别名称，必须是唯一的，在不同的爬虫必须定义不同的名字。

allow_domains = [] 是搜索的域名范围，也就是爬虫的约束区域，规定爬虫只爬取这个域名下的网页，不存在的URL会被忽略。

start_urls = () ：爬取的URL元祖/列表。爬虫从这里开始抓取数据，所以，第一次-的数据将会从这些urls开始。其他子URL将会从这些起始URL中继承性生成。

parse(self, response) ：解析的方法，每个初始URL完成-后将被调用，调用的时候传入从每一个URL传回的Response对象来作为唯一参数，主要作用如下：

4.保存数据(pipelines.py)

在管道文件里面设置保存数据的方法，可以保存到本地或数据库。

温馨提醒

第一次运行scrapy项目的时候，出现-->"DLL load failed" 错误提示，需要安装pypiwin32模块。

简单入门的实例

（1）items.py

想要爬取的信息

# -*- coding: utf-8 -*-

import scrapy

class ItcastItem(scrapy.Item):

name = scrapy.Field()

title = scrapy.Field()

info = scrapy.Field()

（2）itcastspider.py

写爬虫程序

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import scrapy

from mySpider.items import ItcastItem

# 创建一个爬虫类

class ItcastSpider(scrapy.Spider):

# 爬虫名

name = "itcast"

# 允许爬虫作用的范围

allowd_domains = ["http://itcast-/"]

# 爬虫起始的url

start_urls = [

"http://itcast-/channel/teacher.shtml#",

]

def parse(self, response):

teacher_list = response.xpath('//div[@class="li_txt"]')

# 所有老师信息的列表集合

teacherItem = []

# 遍历根节点集合

for each in teacher_list:

# Item对象用来保存数据的

item = ItcastItem()

# name, extract() 将匹配出来的结果转换为Unicode字符串

# 不加extract() 结果为xpath匹配对象

name = each.xpath('./h3/text()').extract()

# title

title = each.xpath('./h4/text()').extract()

# info

info = each.xpath('./p/text()').extract()

item['name'] = name[0].encode("gbk")

item['title'] = title[0].encode("gbk")

item['info'] = info[0].encode("gbk")

teacherItem.append(item)

return teacherItem

如何利用小游戏解决方案提升企业在金融和物联网领域的运营效率

1775 2022-09-18

新手必学Python爬虫之Scrapy框架案例详解（Scrapy爬虫框架）

如何利用小游戏解决方案提升企业在金融和物联网领域的运营效率

如何利用AI IDE工具提升小程序开发效率，助力企业实现数字化转型

小游戏发布如何提升用户粘性与品牌价值的创新方式

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计