Scrapy 架构流程图(官方文档) - 翻译整理-FinClip官网

Scrapy 架构流程图(官方文档) - 翻译整理

网友投稿 1236 2022-11-16

Scrapy 架构流程图(官方文档) - 翻译整理

架构概述

本文档描述了Scrapy的体系结构及其组件的交互方式。

概述

下图显示了Scrapy体系结构及其组件的概述以及系统内部发生的数据流的概述（由红色箭头显示）。下面包含组件的简要说明，并提供链接以获取有关它们的更多详细信息。数据流也在下面描述。

数据流

Scrapy中的数据流由执行引擎控制，如下所示：

该引擎获得初始请求从抓取蜘蛛。该引擎安排在请求调度程序和要求下一个请求抓取。该计划返回下一请求的引擎。该引擎发送请求到-器，通过-器中间件（见process_request()）。页面完成-后，Downloader会生成一个Response（带有该页面）并将其发送到Engine，并通过Downloader Middlewares（请参阅参考资料process_response()）。该引擎接收来自响应-器并将其发送到所述蜘蛛进行处理，通过蜘蛛中间件（见process_spider_input()）。该蜘蛛处理响应并返回刮下的项目和新的要求（跟随）的引擎，通过蜘蛛中间件（见process_spider_output()）。该引擎发送处理的项目，以项目管道，然后把处理的请求的调度，并要求今后可能要求抓取。该过程重复（从步骤1开始），直到调度程序不再有请求为止。

白话版:

1.引擎：Hi！Spider, 你要处理哪一个网站？2.Spider：老大要我处理xxxx.com。3.引擎：你把第一个需要处理的URL给我吧。4.Spider：给你，第一个URL是xxxxxxx.com。5.引擎：Hi！调度器，我这有request请求你帮我排序入队一下。6.调度器：好的，正在处理你等一下。7.引擎：Hi！调度器，把你处理好的request请求给我。8.调度器：给你，这是我处理好的request9.引擎：Hi！-器，你按照老大的-中间件的设置帮我-一下这个request请求10.-器：好的！给你，这是-好的东西。（如果失败：sorry，这个request-失败了。然后引擎告诉调度器，这个request-失败了，你记录一下，我们待会儿再-）11.引擎：Hi！Spider，这是-好的东西，并且已经按照老大的-中间件处理过了，你自己处理一下（注意！这儿responses默认是交给def parse()这个函数处理的）12.Spider：（处理完毕数据之后对于需要跟进的URL），Hi！引擎，我这里有两个结果，这个是我需要跟进的URL，还有这个是我获取到的Item数据。13.引擎：Hi ！管道我这儿有个item你帮我处理一下！调度器！这是需要跟进URL你帮我处理下。然后从第四步开始循环，直到获取完老大需要全部信息。 14.管道“调度器：好的，现在就做！

组件

Scrapy引擎

引擎负责控制系统所有组件之间的数据流，并在发生某些操作时触发事件。有关详细信息，请参阅上面的数据流部分。

调度程序

调度程序接收来自引擎的请求，并在引擎请求它们时将它们排入队列以便稍后（也引导到引擎）。

-器

-器负责获取网页并将其提供给引擎，引擎又将它们提供给蜘蛛。

蜘蛛

蜘蛛是由Scrapy用户编写的自定义类，用于解析响应并从中提取项目或其他要遵循的请求。有关更多信息，请参阅蜘蛛。

管道

物品管道负责在物品被蜘蛛提取（搜罗）后处理物品。典型的任务包括清理，验证和持久性（如将项目存储在数据库中）。有关更多信息，请参阅项目管道。

管道的典型用途是：

清理HTML数据验证已删除的数据（检查项目是否包含某些字段）检查重复项（并删除它们）将已删除的项目存储在数据库中

-中间件

-器中间件是Scrapy的请求/响应处理的钩子框架。它是一个轻量级的低级系统，用于全局改变Scrapy的请求和响应。位于Engine和Downloader之间的钩子框架，当它们从Engine传递到Downloader时处理请求，以及从Downloader传递到Engine的响应。如果您需要执行以下操作之一，请使用Downloader中间件：

在将请求发送到-程序之前处理请求（即在Scrapy将请求发送到网站之前）;在将它传递给蜘蛛之前改变收到的响应;发送新的请求，而不是将收到的响应传递给蜘蛛;在没有抓取网页的情况下将响应传递给蜘蛛;默默地放弃一些请求。

有关更多信息，请参阅-器中间件。

蜘蛛中间件

蜘蛛中间件是一个钩入Scrapy蜘蛛处理机制的框架，您可以在其中插入自定义功能来处理发送给Spiders的响应，以便处理和处理从蜘蛛生成的请求和项目,位于Engine和Spider之间的特定钩子。

如果需要，请使用Spider中间件

蜘蛛回调的后期处理输出 - 更改/添加/删除请求或项目;后处理start_requests;处理蜘蛛异常;根据响应内容调用errback而不是回调某些请求。

有关更多信息，请参阅Spider Middleware。

事件驱动的网络

Scrapy是用Twisted编写的，Twisted是一个流行的事件驱动的Python网络框架。因此，它使用非阻塞（也称为异步）代码实现并发。

但是，在日常工作和面试过程中，经常发现有些会笃定地认为 Scrapy 采用的是多线程并发模型。实际上，虽然 Twisted 框架提供了线程池支持，但是其核心网络部分处理逻辑依赖的是「单线程 IO 多路复用」技术，在 Linux 平台上，是围绕 epoll() 系统调用实现的 Reactor 模式。

有关异步编程和Twisted的更多信息，请参阅以下链接：

Twisted中的延迟介绍Twisted - 你好，异步编程Twisted的介绍 - Krondo

智慧屏第三方App安装如何提升用户体验与功能拓展

1236 2022-11-16

Scrapy 架构流程图(官方文档) - 翻译整理

app开发者平台在数字化时代的重要性与发展趋势解析

探索flutter框架开发的app在移动应用市场的潜力与挑战

智慧屏第三方App安装如何提升用户体验与功能拓展

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计