RyanCrawler 基于Jsoup的爬虫框架-FinClip官网

RyanCrawler 基于Jsoup的爬虫框架

网友投稿 734 2022-10-20

RyanCrawler 基于Jsoup的爬虫框架

RyanCrawler

以Jsoup为请求/-模块，重构部分底层，重构请求载入结构，重写参数注入方式，嵌入部分增强功能，优化I/O流，可对单个请求定制化，并支持-功能。

以JsoupXpath为解析模块，重构解析结构，重写函数、轴、操作符解析方式提高性能和易读性，缓存语法树，移除部分华而不实的功能，增强Xpath语法模块，且支持在筛选结果中继续XPath筛选 doc.xpath("xpath").xpath("xpath")

快速开始

public class Demo implements Processor { private CrawlerSite cr = CrawlerSite.create() .userAgent("Mozilla/5.0 (Macintosh;Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36") .ignoreContentType(true) .timeOut(1000)//超时时间 .setFilePath("/Users/Rui_Statham/Downloads");// 如果填写该路径，则会默认-访问过的页面到该页面 public CrawlerSite getSite() { return cr; } public static void main(String[] args) throws IOException { Response res = PageProcessor.create(new Demo()).url("https://baidu.com/s?wd=Java").execute();// 执行请求 Document doc = res.parse();// 格式化doc doc.xpath("//div[@id='content_left']/div[position()<4]/h3/a/@href"); }}

请求模块

因请求模块基于Jsoup重构，为兼容原生Jsoup保留大部分API(保留95%以上)，固可参考Jsoup API；

解析模块

语法

支持标准Xpath语法（支持谓语嵌套），支持全部常用函数，支持全部常用轴，去掉了一些标准里面华而不实的函数和轴，下面会具体介绍。语法可以参考http://w3school.com-/xpath/index.asp

关于使用Xpath的一些注意事项

非常不建议直接粘贴Firefox或chrome里生成的Xpath，这些浏览器在渲染页面会根据标准自动补全一些标签，如table标签会自动加上tbody标签，这样生成的Xpath路径显然不是最通用的，所以很可能就取不到值。所以，要使用Xpath并感受Xpath的强大以及他所带来便捷与优雅最好就是学习下Xpath的标准语法，这样应对各种问题才能游刃有余，享受Xpath的真正威力！

特别说明

RyanCrawler解析模块支持以下几种写法：原生Jsoup写法：doc.select("div#id div.class:last");现在的写法：doc.xpath("//*[@id='id']/div[class='class']/div[last()]");现在的写法： doc.xpath("//*[@id='id']").select("div.class").xpath("//div[last]");现在的写法2：doc.getElementById("id").select("div.class").xpath("//div[last]");

Xpath部分示例

http://cnblogs.com/ 为例//a/@href;//div[@id='paging_block']/div/a[text()='Next >']/@href;//div[@id='paging_block']/div/a[text()*='Next']/@href;//h1/text();//h1/allText();//h1//text();//div/a;//div[@id='post_list']/div[position()<3]/div/h3/allText();//div[@id='post_list']/div[first()]/div/h3/allText();//div[@id='post_list']/div[1]/div/h3/allText();//div[@id='post_list']/div[last()]/div/h3/allText();//查找评论大于1000的条目（当然只是为了演示复杂xpath了，谓语中可以各种嵌套，这样才能测试的更全面嘛）//div[@id='post_list']/div[./div/div/span[@class='article_view']/a/num()>1000]/div/h3/allText();//轴支持//div[@id='post_list']/div[self::div/div/div/span[@class='article_view']/a/num()>1000]/div/h3/allText();//div[@id='post_list']/div[2]/div/p/preceding-sibling::h3/allText();//div[@id='post_list']/div[2]/div/p/preceding-sibling::h3/allText()|//div[@id='post_list']/div[1]/div/h3/allText();

函数

名称	描述
href()	节点内所有a标签的绝对地址
text()	提取节点的自有文本
node()	提取所有节点
position()	返回当前节点所处在同胞中的位置
last()	返回同级节点中的最后那个节点
first()	返回同级节点中的第一个节点

解析器扩展函数

名称	描述
allText()	提取节点下全部文本，取代类似 //div/h3//text()这种递归取文本用法
html()	获取全部节点的内部的html
outerHtml()	获取全部节点的包含节点本身在内的全部html
num()	抽取节点自有文本中全部数字，如果知道节点的自有文本(即非子代节点所包含的文本)中只存在一个数字，如阅读数，评论数，价格等那么直接可以直接提取此数字出来。如果有多个数字将提取第一个匹配的连续数字。
其他说明

contains(arga,argb)这个函数暂时不支持，可以用*=取代contains() 例：//div[text()*='next']

轴

名称	描述
self	节点自身
parent	父节点
child	子节点
ancestor	全部祖先节点父亲，爷爷，爷爷的父亲...
ancestor-or-self	全部祖先节点和自身节点
descendant	全部子代节点儿子，孙子，孙子的儿子...
descendant-or-self	全部子代节点和自身
preceding-sibling	节点前面的全部同胞节点
following-sibling	节点后面的全部同胞节点

扩展轴

名称	描述
preceding-sibling-one	前一个同胞节点
following-sibling-one	返回下一个同胞节点
sibling	全部同胞

操作符

名称	描述
a+b	返回数值相加结果
a-b	返回数值相减结果
a=b	判断是否相等返回Boolean
a!=b	不等于返回Boolean
a>b	大于返回Boolean
a>=b	大于等于返回Boolean
a<b	小于返回Boolean
a<=b	小于等于返回Boolean

操作符扩展

名称	描述
a^=b	字符串a以字符串b开头 a startwith b
a*=b	a包含b, a contains b
a$=b	a以b结尾 a endwith b
a~=b	a的内容符合正则表达式b
a!~b	a的内容不符合正则表达式b

探索h5游戏sdk在游戏开发中的潜力与未来趋势

734 2022-10-20

RyanCrawler 基于Jsoup的爬虫框架

轻量级前端框架在提升开发效率与用户体验中的重要作用

探索h5游戏sdk在游戏开发中的潜力与未来趋势

微信硬件 H5 开发控制灯光步骤全面详细解析

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计