大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略（中集）

hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5配置详见安装配置攻略（上集）

接下来具体实现单机伪分布式爬取！

一首先启动hadoop(配置完成可在任意目录下。也可在hadoop目录下)

<span style="font-size:14px;">
$ start-all.sh

$ jps <!--查看hadoop启动的进程-->
</span>

二启动hbase(配置完成可在任意目录下。也可在hadoop目录下)开启hbase之前，先查看/etc/hosts中主机对应的IP是否是机器此时的IP，每一次重启机器IP地址会变化，不修改IP会出现Hmaster节点无法启动（我在这里卡了很久）

<span style="font-size:14px;">
$ sudo gedit /etc/hosts
</span>

打开文档，用ifconfig命令查看此时机器的IP，并修改hosts中的主机IP

启动hbase

<span style="font-size:14px;"><span style="font-size:14px;">
$ start-hbase.sh
$ jps查看进程结点，有9个则启动成功。
<span style="background-color: rgb(51, 204, 0);">
2032 NameNode
13764 HQuorumPeer
29069 Jps
2630 JobTracker
2280 DataNode
13889 HMaster
2535 SecondaryNameNode
2904 TaskTracker
14180 HRegionServer</span>
</span>
少一个则需要查找相应的错误！

<strong>三 简单体验一下抓取和检索的过程</strong>
1、建立一个目录urls
2、在urls目录里写一个种子文件，命名为url，里面随便写个页面丰富的网址例如http://blog.tianya.cn/
3、将该目录放到hadoop的hdfs上
$ hadoop dfs -put url url1

$ hadoop dfs -ls查看hadoop中的文件，也可访问localhost:50070(50030)hadoop页面。

</pre><p></p><span style="font-size:14px;"></span><pre name="code" class="html">
4、执行nutch inject，向hbase注入抓取种子页（进入deploy文件）
<pre name="code" class="html"><span style="font-size:14px;">

deploy$ bin/nutch inject url1</span>

执行完成后，可以在hbase里面看到“webpage”这个表

分别执行以下命令

<span style="font-size:14px;">
bin/nutch generate -topN 10
bin/nutch fetch -all
bin/nutch parse -all
bin/nutch updatedb
</span>

执行完成后，可以去hbase里面scan一下webpage表，应该已经有了百行以上的结果,命令如下：

<span style="font-size:14px;">
$/home/hadoop/hbase-0.94.11/bin/hbase shell
<span style="background-color: rgb(51, 255, 51);">
<span style="background-color: rgb(51, 204, 0);">
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Type "exit<RETURN>" to leave the HBase Shell
Version 0.90.4, r1150278, Sun Jul 24 15:53:29 PDT 2011

hbase(main):001:0> list
TABLE                                          webpage                                         
1 row(s) in 0.5270 seconds</span>
</span>

<span style="font-size:14px;">6、为elasticsearch建立索引</span>

运行elasticsearch启动elasticsearch服务
bin/nutch elasticindex <cluster name> -all
如果没有修改过es的配置文件，这里<cluster name>默认应该是 elasticsearch

7、利用curl进行查询

elasticsearch-head是一个elasticsearch的集群管理工具，它是完全由html5编写的独立网页程序，你可以通过插件把它集成到es

插件安装方法1：

1.elasticsearch/bin/plugin -install mobz/elasticsearch-head

2.运行es

3.打开http://localhost:9200/_plugin/head/

插件安装方法2：

1.https://github.com/mobz/elasticsearch-head下载zip 解压

2.建立elasticsearch-1.0.0\plugins\head\_site文件

3.将解压后的elasticsearch-head-master文件夹下的文件copy到_site

4.运行es

5.打开http://localhost:9200/_plugin/head/

在地址栏输入es服务器的ip地址和端口点connect就可以连接到集群。下面是连接后的视图。这是主界面，在这里可以看到es集群的基本信息

参考链接：http://blog.csdn.net/july_2/article/details/24481935

大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略（中集）

猜你喜欢