scrapy运行定量爬虫（scrapy爬虫案例python）-FinClip官网

scrapy运行定量爬虫（scrapy爬虫案例python）

网友投稿 950 2022-09-17

scrapy运行定量爬虫（scrapy爬虫案例python）

假设需求

现在大概有三千个scrapy的爬虫文件，10台机器，如何合理的分配爬虫？什么，这么简单的数学题还要问，一台机器分300个爬虫不就行了。确实，这样分配最简单也最直接，但会带来一些问题。就比如，有些站点网页少而有些网站很大，每个爬虫运行的时间是不一样的，最后可能导致一台累死，九台围观。而且一台机器同时运行300个爬虫，在硬件资源上的消耗会很大，也可能会导致很多爬虫无法正常运行，所以即使是这样分配爬虫我们也要限制同时运行的爬虫数量。当某个爬虫运行完了，才执行下一个。

解决方法

可以先创建出一个队列，队列里存放待抓取的爬虫(通常会创建三个，分别是pending(待抓取)、running(正抓取)、finished(已抓取))。然后每台机器开始都取指定数量的爬虫运行，当其中一个运行完，在去任务队列里取，直到队列空了。

实现

这种数量不多的队列使用Redis的集合就行，我们创建pending、running、finished三个集合，然后将所有的爬虫的name字段存放在pending集合中(当然爬虫文件名也可以，只是启动爬虫的方式稍微不一样)，接着我们就可以写个脚本来运行爬虫了。

方式有两种：

一、crawl命令

伪代码：

pending.add(所有爬虫)

while True:

if len(running) < 指定数量:

spider = pending.pop()

多进程执行：f'scrapy crawl {spider}'

else:

time.sleep(指定时间)

然后只要编写一个extension来同步爬虫状态到Redis里

class SpiderCountLimit:

def __init__(self, count):

self.spider_count = count

self.r = redis.Redis(decode_responses=True)

@classmethod

def from_crawler(cls, crawler):

count = crawler.settings.get('SPIDER_COUNT', 20)

ext = cls(count)

crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)

crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)

return ext

def spider_closed(self, spider, reason):

self.r.srem('running', spider.name) # 爬虫关闭时，删除running中的爬虫

self.r.sadd('finished', spider.name) # 加入到已完成队列

def spider_opened(self, spider):

self.r.sadd('running', spider.name) # 添加爬虫到running中

这种方法就不多说了，因为我没尝试，直接看第二种

二、Crawler API

伪代码：(不懂怎么用的Crawler API可以看scrapy自定义命令)

for i in range(指定数量):

crawler_process.crawl(pending.pop())

crawler_process.start()

while True:

if len(running) < 指定数量:

多进程执行：

crawler_process.crawl(pending.pop())

crawler_process.start()

else:

time.sleep(指定时间)

因为crawler_process.start()这个语句是阻塞的，所以需要多进程来执行。也可以去掉多进程，把extension的内容改成这样：

class SpiderCountLimit:

def __init__(self, count):

self.spider_count = count

self.r = redis.Redis(decode_responses=True)

@classmethod

def from_crawler(cls, crawler):

count = crawler.settings.get('SPIDER_COUNT', 20)

ext = cls(count)

crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)

crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)

return ext

def spider_closed(self, spider, reason):

self.r.srem('running', spider.name)

self.r.sadd('finished', spider.name)

spider = self.r.spop('pending')

process = CrawlerProcess()

process.crawl(spider)

process.start()

def spider_opened(self, spider):

self.r.sadd('running', spider.name)

不过我感觉这个方法不如多进程添加，因为上面提到process.start() 是阻塞的，也就是说spider_closed这个方法一直没有结束，这可能会带来一些无法预见的问题。

至于其他一些细节上的优化就自己思考了，比如改用进程池来管理进程等。

充实你的上网体验：书签管理插件的必备利器

950 2022-09-17

scrapy运行定量爬虫（scrapy爬虫案例python）

如何有效管理和优化你的网页插件？ | 网页插件管理

充实你的上网体验：书签管理插件的必备利器

关于小程序网页能否进行登入的相关探讨

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计