Beanbun 是用 PHP 编写的多进程网络爬虫框架(beans怎么读)

网友投稿 702 2022-10-13

Beanbun 是用 PHP 编写的多进程网络爬虫框架(beans怎么读)

Beanbun 是用 PHP 编写的多进程网络爬虫框架(beans怎么读)

简介

Beanbun 是一个简单可扩展的爬虫框架,支持分布式,支持守护进程模式与普通模式,守护进程模式基于 Workerman,-器基于 Guzzle。

文档

https://github.com/kiddyuchina/Beanbun/blob/master/docs/chs/README.md

特点

支持守护进程与普通两种模式(守护进程模式只支持 Linux 服务器)默认使用 guzzle 进行爬取支持分布式支持内存、Redis 等多种队列方式支持自定义URI过滤支持广度优先和深度优先两种爬取方式遵循 PSR-4 标准爬取网页分为多步,每步均支持自定义动作(如添加代理、修改 user-agent 等)灵活的扩展机制,可方便的为框架制作插件:自定义队列、自定义爬取方式...

安装

Beanbun 可以通过 composer 进行安装。

$ composer require kiddyu/beanbun

快速开始

创建一个文件 start.php,包含以下内容

seed = [ 'http://950d.com/', 'http://950d.com/list-1.html', 'http://950d.com/list-2.html',];$beanbun->afterDownloadPage = function($beanbun) { file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page);};$beanbun->start();

在命令行中执行

$ php start.php

接下来就可以看到抓取的日志了。

插件

beanbun-parser 数据抽取插件 https://github.com/kiddyuchina/beanbun-parser

更多详细内容,请查看 文档

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Centos 7.6下安装njmon
下一篇:TSF - 基于协程和swoole驱动的高性能PHP框架(tsf桌面)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~