windows下配置nutch注意的问题-FinClip官网

windows下配置nutch注意的问题

网友投稿 776 2022-09-20

windows下配置nutch注意的问题

1.为处理方便，直接在$nutch目录下创建一个名为url.txt文件，然后在文件里添加要搜索的网址，例如：http://sina.com-/，注意网址最后的"/"一定要有。前面的"http://"也是必不可少的。 2.配置crawl-urlfilter.txt 打开$nutch/conf/crawl-urlfilter.txt，找到这两行 # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 红色部分是一个正则，改写为如下形式 +^http://([a-z0-9]*\.)*com-/ +^http://([a-z0-9]*\.)*cn/ +^http://([a-z0-9]*\.)*com/ 3.修改$nutch\conf\nutch-site.xml为如下内容,否则不会抓取。 http.agent.name * 4.运行crawl抓取网页 1. 首先在nutch-0.9根目录下建一个logs文件夹，在该文件夹下建一个logs1.txt文件。 2. 在Cygwin2控制台下转到nutch目录下，例如nutch安装在f:\nutch-0.9下，则输入如下命令： cd f:\nutch-0.9. 运行如下命令，开始抓取指定网页中的内容。其中斜体的部分需要注意。 bin/nutch crawl url.txt -dir mydir -depth 2 -threads 4 其中： -url.txt 就是刚才我们创建的url.txt文件,文件中存放我们要抓取的网址； -dir 指定抓取内容所存放的目录，如上存在mydir中； -threads 指定并发的线程数； -depth 指定从根URL起将要爬行的深度；通常抓取的时间会有5-10分钟。抓取后，在nutch目录下生成一个mydir文件夹。每次抓取时，会检查$nutch是否存在与mydir相同的文件夹名，如果存在，会抛出异常。抓取结束后会在mydir目录下生成如下结构的目录。同时在&nutch下会生成logs目录，在此目录下会生成一个hadoop.log的日志文件。包括抓取网页的过程描述。 5.搜索抓取文件的设置将$nutch下面的war文件（如果是0.9版本的nutch，则是nutch-0.9.war），拷贝到Tomcat\webapps下，用winrar解压到此目录下，解压文件夹名为：nutch-0.9, 打开nutch-0.9\WEB-INF\classes下nutch-site.xml文件，将改为 searcher.dir D:\nutch-0.9\mydir value属性的值为从网站抓取的文件存放的路径，也就是上文中mydir的完整路径。 6.搜索乱码的解决如结果出现乱码将tomcat\conf下的server.xml中的Connector部分改成如下形式：（红色部分为添加的）

充实你的上网体验：书签管理插件的必备利器

776 2022-09-20

windows下配置nutch注意的问题

如何有效管理和优化你的网页插件？ | 网页插件管理

充实你的上网体验：书签管理插件的必备利器

关于小程序网页能否进行登入的相关探讨

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计