【python爬虫】第17章——基于scrapy-redis两种形式的分布式爬虫-FinClip官网

【python爬虫】第17章——基于scrapy-redis两种形式的分布式爬虫

网友投稿 825 2022-11-30

【python爬虫】第17章——基于scrapy-redis两种形式的分布式爬虫

redis分布式部署

1.scrapy框架是否可以自己实现分布式？

不可以。原因有二。

其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）其二：多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。（多台机器无法共享同一个管道）

2.基于scrapy-redis组件的分布式爬虫

scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道，我们可以直接使用并实现分布式数据爬取。

实现方式：

1.基于该组件的RedisSpider类

2.基于该组件的RedisCrawlSpider类

3.分布式实现流程：上述两种不同方式的分布式实现流程是统一的

3.1 -scrapy-redis组件：pip install scrapy-redis 3.2

127.0.0.1，表示可以让其他ip访问redis- 将yes该为no：protected-mode no，表示可以让其他ip操作redis

3.3 修改爬虫文件中的相关代码：

将爬虫类的父类修改成基于RedisSpider或者RedisCrawlSpider。注意：如果原始爬虫文件是基于Spider的，则应该将父类修改成RedisSpider，如果原始爬虫文件是基于CrawlSpider的，则应该将其父类修改成RedisCrawlSpider。

注释或者删除start_urls列表，切加入redis_key属性，属性值为scrpy-redis组件中调度器队列的名称

3.4 在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的管道

ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 400}

3.5 在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的调度器

# 使用scrapy-redis组件的去重队列DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"# 使用scrapy-redis组件自己的调度器SCHEDULER = "scrapy_redis.scheduler.Scheduler"# 是否允许暂停SCHEDULER_PERSIST =

3.6 在配置文件中进行爬虫程序链接redis的配置：

REDIS_HOST = 'redis服务的ip地址'REDIS_PORT = 6379REDIS_ENCODING = ‘utf-8’REDIS_PARAMS = {‘password’:’123456’}

3.7 开启redis服务器：redis-server 配置文件

3.8 开启redis客户端：redis-cli

3.9 运行爬虫文件：scrapy runspider SpiderFile

3.10 向调度器队列中扔入一个起始url（在redis客户端中操作）：lpush redis_key属性值起始url

洞察探索小米电视app开发如何利用FinClip的小程序容器技术，实现跨平台便捷开发，并助力企业快速数字化转型。

825 2022-11-30

【python爬虫】第17章——基于scrapy-redis两种形式的分布式爬虫

智慧屏安装APP的最佳实践与跨平台小程序开发的结合

洞察探索小米电视app开发如何利用FinClip的小程序容器技术，实现跨平台便捷开发，并助力企业快速数字化转型。

洞察掌握android电视app开发中的安全与合规策略，提升企业运营效率

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计