nutch和solr安装 - 代码天地

nutch和solr安装

编程语言 2018-05-13 02:31:32 阅读次数: 0

vmware7+ubuntu12.04

1，下载文件nutch1.5http://mirror.bjtu.edu.cn/apache/nutch/1.5/

solr3.6：http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.0/

2，解压，bin/nutch需要添加可执行权限，执行后显示 Usage: nutch [-core] COMMAND

3，配置nutch：

conf/nutch-site.xml

创建文件夹urls，假如文件seed.txt，在文件内加入要爬取的网站：http://www.sina.com.cn/

修改conf/regex-urlfilter.txt末尾的+.为+^http://([a-z0-9]*\.)*sina.com.cn/

执行命令bin/nutch crawl urls -dir crawl -depth 3 -topN 5，生成

crawl/crawldb
crawl/linkdb
crawl/segments

4，在solr目录下找到example/start.jar，执行 java -jar start.jar

访问

http://localhost:8983/solr/admin/
http://localhost:8983/solr/admin/stats.jsp

5，复制nutch目录下conf/schema.xml到solr目录下example/solr/conf/，并加入：

<field name="text" type="text" stored="true" indexed="true"/>

确保重启solr不报错，否则加入<field name="content" type="text" stored="true" indexed="true"/>

6，索引刚刚使用nutch下载的文件:

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

7，边下载变索引命令：

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

8，访问http://localhost:8983/solr/admin/，这只是部分网页搜索的配置

更多详细内容参考：

http://www.cnblogs.com/skyme/archive/2012/06/13/2548239.html

猜你喜欢

转载自yuandingping.iteye.com/blog/1689409

nutch和solr安装

nutch和solr集成

Nutch 应用笔记和solr配合

集成nutch和solr，并加入中文分词的过程

nutch1.12和solr5.4.1整合教程

SOLR4.2+NUTCH1.6

nutch 2.0 search accumulo solr

nutch+solr,solr文件配置

Solr 的安装和部署

solr安装和suggest

solr的安装和启动

Solr的安装和配置

solr安装和启动

solr 安装和使用

Nutch+ElasticSearch/Solr+Hadoop

Nutch2 + Solr 6: This IndexSchema is not mutable

Mac上搭建nutch-1.8+solr

lucene、solr、nutch三者的关系

Nutch、Scrapy、Lucene、Heritrix、Solr、Sphinx

nutch 安装配置运行

Nutch 1.5 安装与使用

NUTCH的安装与测试

jdk1.7 + ant1.9 + tomcat7 + nutch2.3 + solr5.3 + mysql5.6安装

Apache Solr: 安装和运行

Solr的安装和基本使用

solr的认识、安装和使用

全文索引-lucene，solr，nutch，hadoop之lucene 全文索引-lucene，solr，nutch，hadoop之solr

Solr：Linux下安装solr和启动（CentOS7）

Nutch1.1的安装与运行

nutch

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)