NUTCH的安装与测试

其他 2018-06-19 05:15:52 阅读次数: 2

1．Nutch简介

Apache Nutch is ahighly extensible and scalable open source web crawler softwareproject—wikipedia。

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch的组成：爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引，所以除去索引部分，两者之间的耦合度很低。Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上，例如将Crawler和Searcher分别放在两个主机上，这样可以提升性能。

2.Nutch安装

2.1安装虚拟机与Ubuntu（略）

2.2安装JDK与配置环境

(1) sudo apt-get update

(2) sudo apt-getinstall default-jdk

(3)配置环境变量： sudo gedit ~/.bashrc

进入编辑框，在文件的末尾添加四行代码：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

（4）输入完成后，点击右上角保存，然后关闭

执行命令：

source ~/.bashrc

（5）验证环境配置结果，出现下图结果，表示配置成功

（6）注意：不可以省略编辑bashrc这一步，如果省略掉，会影响后面的程序运行。

2.3Nutch的下载/编译/配置

（1）下载：首先安装svn工具，然后通过svn下载代码，本文采用nuthc的版本为1.7。下载完成后，如图所示。

sudo apt install subversion

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.7

（2）编译：

修改文件：build.xml

找到这一块，加入这一行

<classpath><fileset dir="lib/" includes="sonar*.jar" /></classpath>

然后将一个jar包加入lib文件夹中

编译需要Ant,所以首先要安装Ant。输入ant开始编译

sudo apt install ant

cd release-1.7

ant

编译过程可能会出现问题：

大概是源中有的包缺失了，可以选择修改源。即更改value后面的网址就行了。

不过这种办法试过之后可能依然不行，那么问题的关键来了。你需要换个网络。这和我软微的网络有的时候没法访问百度文库是一样的。本人在尝试过程中，断掉了无线网，用手机开了热点，一次就编译成功了。

（3）配置：主要配置conf文件夹下的这两个文件

nutch-site.xml 在value标签内填入任意字符即可

nutch-default.xml

2.4抓取网页

1. 进入runtime->local目录

命令： cd runtime/local

2. 建一个目录保存需要抓取的URL信息

mkdir urls

vi urls/url.txt

将需要抓取的URL写入url.txt中：

3. 使用Crawl命令抓取网页

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

runtime/local文件夹下的nohup.out存储爬取结果

猜你喜欢

转载自blog.csdn.net/kangyucheng/article/details/79643936

NUTCH的安装与测试

nutch和solr安装

nutch 安装配置运行

Nutch 1.5 安装与使用

Nutch1.1的安装与运行

nutch

nutch 安装部署以nutch2.3.1 为例

linux nutch1.0安装配置

Nutch相关框架安装使用最佳指南

nutch入门之本地安装运行

nutch安装配置 tomcat6.0+nutch1.2安装配置（原创）

Cygwin的安装－－Nutch搜索引擎环境

在UBUNTU安装NUTCH(十个简单的步骤)

nutch笔记

书虫--Nutch

Nutch原理

nutch杂记

nutch使用

nutch SolrDeleteDuplicates

nutch入门

Nutch简介

nutch编译

nutch nutch-site.xml

大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略（中集）

大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置（上集）

centos7下安装配置nutch2.2+mysql

nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0

jdk1.7 + ant1.9 + tomcat7 + nutch2.3 + solr5.3 + mysql5.6安装

Nutch爬虫环境搭建

Nutch入门白话版

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)