后台小程序开发的全方位指南
798
2022-10-11
简单的python协程爬虫框架(py好用的爬虫框架)
CRAWLER FRAMEWORK
项目简介
基于grequests的简单协程爬虫框架本爬虫框架基于广度优先爬虫设计本爬虫框架默认支持两层爬行深度(可自行添加多层index索引页到redis中间件内,以提升爬虫深度)框架执行流程:data_file -> start_url -> start_redis_hash -> downloader -> index_redis_hash -> downloader -> detail_postgresql_table上述流程中,downloader模块,parser方法需要传入response的解析函数和response的错误处理函数,一般情况下,仅需要编写index页和detail页的parser_function函数,即可实现爬虫downloader模块暂只支持get请求,可重写downloader方法支持post请求
项目依赖
python3.7.3redis,用于存储index索引页postgresql,用于存储detail结果页crawler_proxy_checked,爬虫代理redis hash表,crawler proxy项目中可自动生成该redis hash表
部署方式
pip install virtualenvvirtualenv venv./venv/bin/pip install -r requirements.txt
启停程序
启动项目bash run.sh停止项目bash stop.sh
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~