CrawlerArtifact,是一种通用爬虫框架,为网络爬虫开发提供了多种简洁实用的框架封装

网友投稿 592 2022-10-26

CrawlerArtifact,是一种通用爬虫框架,为网络爬虫开发提供了多种简洁实用的框架封装

CrawlerArtifact,是一种通用爬虫框架,为网络爬虫开发提供了多种简洁实用的框架封装

CrawlerArtifact爬虫抓取框架使用说明

qq交流群: 237558423

Revised by LiuZhiXiong

CrawlerArtifact,是一种通用爬虫框架,为网络爬虫开发提供了多种简洁实用的框架封装,包括HttpCrawler(底层为HttpClient)、 HtmlUnit、SeleniumAppIUM等。并在此基础上,增加了一些特色功能,如缓存,请求重试,监控统计信息等。

##如何使用 无论打算使用哪种封装框架,请先完成以下步骤 1~3:

1、添加maven依赖

com.crawler.artifact CrawlerArtifact 0.0.1注:由于jar并没有上传到maven中央仓库,故需要自己打包到本地仓库

2、添加DTD约束文件

(1)若为开发环境,将DTD文件拷贝至项目根目录 (2)若为测试环境或线上环境tomcat服务,将DTD文件拷贝至tomcat/bin目录

3、添加全局配置文件至 src/main/resource或src/test/resource下,格式为

标签以及具体含义为: (必选):全局配置标签 :系统 日志、缓存、监控 等标签的父标签 :日志配置标签 type:日志类型,目前支持类型为log4j,若选择日志框架为log4j,需要在resource目录下添加log4j.properties,格式为 log4j.logger.crawlerclient=info,crawlerclient log4j.appender.crawlerclient=org.apache.log4j.DailyRollingFileAppender log4j.appender.crawlerclient.maxFileSize=300MB log4j.appender.crawlerclient.MaxBackupIndex=20 log4j.appender.crawlerclient.File=/opt/applog/crawlerartifact/invoke_info.log log4j.appender.crawlerclient.layout=org.apache.log4j.PatternLayout log4j.appender.crawlerclient.Encoding=UTF-8 log4j.appender.crawlerclient.layout.ConversionPattern=[%p] %d{yyyy-MM-dd HH:mm:ss} [%c]- %m%n level:日志级别,共四种:info,debug,warn,error:抓取器上下文缓存配置 timeout:抓取器缓存超时时间,单位:秒:抓取器连接参数配置,配置项(不区分大小写)为 timeout:超时时间,包含connectiontimeout和sockettimeout connectiontimeout:连接超时时间,单位:毫秒 sockettimeout:传输超时时间,单位:毫秒 maxtotalconnections:最大连接数 maxconnectionperhost:单个ip最大连接数 maxtrytimestofetch:重试次数 isfollowredirects:是否支持302跳转 (必选):mapper父标签 : location:mapper.xml路径 : value:mapper.xml所在文件夹路径

4、按照步骤3的mappers配置的mapper.xml路径,在对应resource路径下建立相应的mapper.xml文件,格式如下:

utf-8 gbk
标签以及具体含义为: (必选):包含整个配置信息 namespace(必选):对应的mapper接口,供SVC调用 crawlertype:抓取器类型,取值为httpclient,htmlunit,selenium:全局请求头,可以有多个 id:全局请求头id
:单个请求头 name:请求头键 value:请求头值:全局编码类型,值为utf-8,gb2312,iso-8859-1:参考步骤3讲解,此处setttings配置会覆盖全局settings配置,目前只支持log覆盖:代理配置:定时获取验证码 id:mapper接口方法签名对应id location:获取验证码实现类,该实现类需要自己定义并实现AuthCodeProcessor接口,重写buildAuthCodeCacheBean方法,返回 AuthCodeCacheBean对象,对象关键值为验证码,参数,抓取器对象
上一篇:习题10-8 递归实现顺序输出整数 (15分)
下一篇:习题6-3 使用函数输出指定范围内的完数 (20分)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~