大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略(中集)

版权声明:分享是一种美德,能够找到同一兴趣点是幸运,转载文章记得说明出处,共同进步。 https://blog.csdn.net/David_snjly/article/details/42929947

hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5配置详见安装配置攻略(上集)

接下来具体实现单机伪分布式爬取

一 首先启动hadoop(配置完成可在任意目录下。也可在hadoop目录下)

<span style="font-size:14px;">
$ start-all.sh

$ jps <!--查看hadoop启动的进程-->
</span>

二 启动hbase(配置完成可在任意目录下。也可在hadoop目录下)开启hbase之前,先查看/etc/hosts中主机对应的IP是否是机器此时的IP,每一次重启机器IP地址会变化,不修改IP会出现Hmaster节点无法启动(我在这里卡了很久)

<span style="font-size:14px;">
$ sudo gedit /etc/hosts
</span>
打开文档,用ifconfig命令查看此时机器的IP,并修改hosts中的主机IP

启动hbase

<span style="font-size:14px;"><span style="font-size:14px;">
$ start-hbase.sh
$ jps查看进程结点,有9个则启动成功。
<span style="background-color: rgb(51, 204, 0);">
2032 NameNode
13764 HQuorumPeer
29069 Jps
2630 JobTracker
2280 DataNode
13889 HMaster
2535 SecondaryNameNode
2904 TaskTracker
14180 HRegionServer</span>
</span>
少一个则需要查找相应的错误!

<strong>三 简单体验一下抓取和检索的过程</strong>
1、建立一个目录urls
2、在urls目录里写一个种子文件,命名为url,里面随便写个页面丰富的网址例如http://blog.tianya.cn/
3、将该目录放到hadoop的hdfs上
$ hadoop dfs -put url url1


$ hadoop dfs -ls查看hadoop中的文件,也可访问localhost:50070(50030)hadoop页面。

</pre><p></p><span style="font-size:14px;"></span><pre name="code" class="html">
4、执行nutch inject,向hbase注入抓取种子页(进入deploy文件)
<pre name="code" class="html"><span style="font-size:14px;">
deploy$ bin/nutch inject url1</span>
 
 
执行完成后,可以在hbase里面看到“webpage”这个表

分别执行以下命令
<span style="font-size:14px;">
bin/nutch generate -topN 10
bin/nutch fetch -all
bin/nutch parse -all
bin/nutch updatedb
</span>

执行完成后,可以去hbase里面scan一下webpage表,应该已经有了百行以上的结果,命令如下:
<span style="font-size:14px;">
$/home/hadoop/hbase-0.94.11/bin/hbase shell
<span style="background-color: rgb(51, 255, 51);">
<span style="background-color: rgb(51, 204, 0);">
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Type "exit<RETURN>" to leave the HBase Shell
Version 0.90.4, r1150278, Sun Jul 24 15:53:29 PDT 2011

hbase(main):001:0> list
TABLE                                          webpage                                         
1 row(s) in 0.5270 seconds</span>
</span>

<span style="font-size:14px;">6、为elasticsearch建立索引</span>
运行elasticsearch启动elasticsearch服务
bin/nutch elasticindex <cluster name> -all
如果没有修改过es的配置文件,这里<cluster name>默认应该是 elasticsearch

7、利用curl进行查询

elasticsearch-head是一个elasticsearch的集群管理工具,它是完全由html5编写的独立网页程序,你可以通过插件把它集成到es

插件安装方法1:
1.elasticsearch/bin/plugin -install mobz/elasticsearch-head
2.运行es
3.打开http://localhost:9200/_plugin/head/
插件安装方法2:
1.https://github.com/mobz/elasticsearch-head下载zip 解压
2.建立elasticsearch-1.0.0\plugins\head\_site文件
3.将解压后的elasticsearch-head-master文件夹下的文件copy到_site
4.运行es
5.打开http://localhost:9200/_plugin/head/
在地址栏输入es服务器的ip地址和端口点connect就可以连接到集群。下面是连接后的视图。这是主界面,在这里可以看到es集群的基本信息
参考链接:http://blog.csdn.net/july_2/article/details/24481935

猜你喜欢

转载自blog.csdn.net/David_snjly/article/details/42929947
今日推荐