YayCrawler 基于规则配置的通用分布式爬虫框架

网友投稿 729 2022-10-31

YayCrawler 基于规则配置的通用分布式爬虫框架

YayCrawler 基于规则配置的通用分布式爬虫框架

YayCrawler

基于WebMagic开发的完整的分布式爬虫框架,该框架特点如下: 1、完全分布式:由管理端(Admin)、调度端(Master)和多个Worker组成,各个组件通过Http协议通信。 2、完全配置化:通过Admin端的页面配置规则就可以爬取任何网站的数据,当然不同网站的难度不一样,会有不同的组件分别针对处理登录、验证码、封IP等问题。 3、可扩展的任务队列:任务队列由Redis实现,根据任务的状态有四种不同的任务队列:初始、执行中、成功、失败。您也可以扩展不同的任务调度算法,默认是公平调度。 4、可定义持久化方式:爬取结果中,属性数据默认持久化到MonogoDB,图片会被-到文件服务器,当然您可以扩展更多的存储类型。 5、稳定和容错:任何一个爬虫任务都会重试和记录,只有任务真正成功了才会被移到成功队列,失败会有失败的原因描述。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:搭建 ELK 问题排查
下一篇:加入log4j日志功能
相关文章

 发表评论

暂时没有评论,来抢沙发吧~