nutch1.12和solr5.4.1整合教程 - 代码天地

nutch1.12和solr5.4.1整合教程

其他 2019-03-02 13:53:06 阅读次数: 0

版权声明：本文为博主原创文章。 https://blog.csdn.net/qq_36691683/article/details/81812974

主要参考资料

Nutch crawl命令
 NutchTutorial

版本说明

nutch 1.12
solr 5.4.1
CentOS7
jdk1.8

步骤

Java环境

1、在CentOS7上安装jdk8
安装教程：https://blog.csdn.net/fuyuwei2015/article/details/73195936

nutch部分

2、解压nutch压缩文件

unzip apache-nutch-1.12-bin.zip

3、配置conf目录下的nutch-size.xml

<configuration>
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
</configuration>

4、设置将要爬行的网址

mkdir urls
touch urls/seed.txt
echo "http://www.zzu.edu.cn/">>urls/seed.txt

网址最后的“/”不要省略，且最好为http的网址，https的网址需要额外配置
5、创建保存爬行结果的目录

touch results

solr部分

6、解压solr安装包

unzip solr-5.4.1.zip

7、复制solr的示例项目的基本配置

cp -r solr-5.4.1/server/solr/configsets/basic_configs solr-5.4.1/server/solr/configsets/nutch

8、使用nutch中的schema.xml替换solr中的默认schema.xml

cp apache-nutch-1.12/conf/schema.xml solr-5.4.1/server/solr/configsets/nutch/conf

9、启动solr，创建一个新的core

bin/solr start
bin/solr create -c nutch -d server/solr/configsets/nutch/conf/

如果出现了enablePositionIncrements is not a valid option as of Lucene 5.0类似的错误，请删除schema.xml文件中的全部enablePositionIncrements属性，这是nutch与solr的版本冲突所致。

最后，启动nutch脚本，并将爬行结果添加至solr，生成索引

10、

bin/crawl -i -D solr.server.url=http://localhost:8983/solr/nutch urls/ results/  2

solr.server.url是solr服务器的地址
urls/是种子url目录
results是爬行结果目录
2代表循环爬行次数2次

另外，此命令执行到最后时，可能会出现ERROR CleaningJob: java.io.IOException: Job failed!类似的异常，这个异常没什么太大影响，是nutch1.12的一个bug，已经在1.14版本修复

结果查看

10、访问http://localhost:8983/solr/#/nutch，进去query选项卡，点击Execute Query，即可展示出nutch爬行的网页所生成的文档

猜你喜欢

转载自blog.csdn.net/qq_36691683/article/details/81812974

nutch1.12和solr5.4.1整合教程

solr5.4.1 + ansj_seg5.1.6的整合

nutch和solr集成

nutch和solr安装

Nutch 应用笔记和solr配合

Solr和ssh的整合

solr和tomcat的整合

集成nutch和solr，并加入中文分词的过程

SOLR4.2+NUTCH1.6

nutch 2.0 search accumulo solr

Nutch 1.4 与 Eclipse 整合

nutch+solr,solr文件配置

Solr安装配置教程、java整合solr

Nutch2 + Solr 6: This IndexSchema is not mutable

Nutch+ElasticSearch/Solr+Hadoop

Mac上搭建nutch-1.8+solr

lucene、solr、nutch三者的关系

Nutch、Scrapy、Lucene、Heritrix、Solr、Sphinx

solr最详细部署教程和solr的基本配置

Flutter 升级 1.12 适配教程

solr教程---solr说明

全文索引-lucene，solr，nutch，hadoop之lucene 全文索引-lucene，solr，nutch，hadoop之solr

Solr教程:1.下载和安装

5.4.1Spark和Hive集成(MySql)

solr教程

1.12

Solr6.6.2之整合SolrJ和Spring

maven项目下solr和spring的整合配置

nutch

nutch+solr 单机全文检索服务的搭建

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)