Smart and Simple Web Crawler- Web爬虫框架

网友投稿 954 2022-10-21

Smart and Simple Web Crawler- Web爬虫框架

Smart and Simple Web Crawler- Web爬虫框架

Smart and Simple WebCrawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置过滤器限制爬回来的链接,默认提供三个过滤器ServerFilter、BeginningPathFilter和RegularExpressionFilter,这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都可以加-。介绍内容来自Open-Open

-:

https://crawler.dev.java-/servlets/ProjectDocumentList?folderID=11459&expandFolder=11459&folderID=10340

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:动态规划--最长上升子序列
下一篇:Network Saboteur
相关文章

 发表评论

暂时没有评论,来抢沙发吧~