Scrapy学习笔记-Scrapyd Overview

网友投稿 1038 2022-10-26

Scrapy学习笔记-Scrapyd Overview

Scrapy学习笔记-Scrapyd Overview

Overview

Projects and versions

Scrapyd可以管理多个项目,每个项目都可以上载多个版本,但只有最新的版本将用于启动新的spider。用于版本名的一个常见(也是有用的)约定是用于跟踪您的Scrapy项目代码的版本控制工具的修订号。例如:r23。版本没有按字母顺序进行比较,而是使用了一种更聪明的算法(distutils也使用相同的算法),例如,r10与r9相比更大。

How Scrapyd works

Scrapyd是一个应用程序(通常作为守护进程运行),它监听spider运行的请求,并为每个spider生成一个进程,该进程基本上执行:​​scrapy crawl myspider​​​。 Scrapyd能并行运行多个进程,将它们分配到max_proc和max_proc_per_cpu选项指定的固定数量的插槽中,启动尽可能多的进程来处理负载。除了调度和管理流程外,Scrapyd还提供了一个jsonweb服务来上传新的项目版本(如eggs)和调度spider。此功能是可选的,如果要实现自己的自定义Scrapyd,可以禁用该功能。如果您熟悉Scrapyd在其中实现的Twisted应用程序框架,那么这些组件是可插拔的,并且可以更改。从0.11开始,Scrapyd还提供了一个最小的web界面。

Starting Scrapyd

要启动服务,请使用Scrapy发行版中提供的scrapyd命令:​​scrapyd​​

Scheduling a spider run

$ curl -d project=myproject -d spider=spider2{"status": "ok", "jobid": "26d1b1a6d6f111e0be5c001e648c57f8"}

Web Interface

Scrapyd附带了一个最小的web界面(用于监视正在运行的进程和访问日志),可以在http://localhost:6800/访问

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:腾讯开源消息中间件TubeMQ总体介绍分析
下一篇:一种新的方式来声明Python应用程序的依赖关系
相关文章

 发表评论

暂时没有评论,来抢沙发吧~