nutch和solr安装

vmware7+ubuntu12.04

1,下载文件nutch1.5http://mirror.bjtu.edu.cn/apache/nutch/1.5/ 

                 solr3.6:http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.0/

2,解压,bin/nutch需要添加可执行权限,执行后显示 Usage: nutch [-core] COMMAND

3,配置nutch:

conf/nutch-site.xml

创建文件夹urls,假如文件seed.txt,在文件内加入要爬取的网站:http://www.sina.com.cn/

修改conf/regex-urlfilter.txt末尾的+.为+^http://([a-z0-9]*\.)*sina.com.cn/ 

执行命令bin/nutch crawl urls -dir crawl -depth 3 -topN 5,生成

crawl/crawldb 
crawl/linkdb 
crawl/segments

4,在solr目录下找到example/start.jar,执行 java -jar start.jar

访问

http://localhost:8983/solr/admin/ 
http://localhost:8983/solr/admin/stats.jsp

5,复制nutch目录下conf/schema.xml到solr目录下example/solr/conf/,并加入:

<field name="text" type="text" stored="true" indexed="true"/>

确保重启solr不报错,否则加入<field name="content" type="text" stored="true" indexed="true"/>

6,索引刚刚使用nutch下载的文件:

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/* 

7,边下载变索引命令:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

8,访问http://localhost:8983/solr/admin/,这只是部分网页搜索的配置

更多详细内容参考:

http://www.cnblogs.com/skyme/archive/2012/06/13/2548239.html

猜你喜欢

转载自yuandingping.iteye.com/blog/1689409