微前端架构如何改变企业的开发模式与效率提升
700
2022-10-24
cetty- 基于事件分发的爬虫框架
一个轻量级的基于事件分发的爬虫框架。
功能介绍
基于完全自定义事件处理机制的爬虫框架。模块化的设计,提供强大的可扩展性。基于HttpClient支持同步和异步数据抓取。支持多线程。基于Jsoup页面解析框架提供强大的网页解析处理能力。
maven
快速入门
/** * 抓取天涯论坛文章列表标题 * http://bbs.tianya-/list-333-1.shtml * * @author heyingcai */public class Tianya extends ProcessHandlerAdapter { @Override public void process(HandlerContext ctx, Page page) { //获取 Document Document document = page.getDocument(); //dom解析 Elements itemElements = document. select("div#bbsdoc>div#bd>div#main>div.mt5>table>tbody"). get(2). select("tr"); List
TODO
支持注解方式支持代理池支持Berkeley 内存数据作为url管理器,提供海量url存储并提高存取效率支持热更新支持爬虫治理
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~