Pig有两种使用模式:本地模式和MapReduce模式。
Pig进行实际工作的模式是MapReduce模式,使用Pig的MapReduce模式首先需要已经安装好的hadoop集群,关于hadoop集群的搭建在之前已经讲过。
下面就在之前搭建的集群的基础上,安装pig。安装过程如下:
1 下载pig-0.9.0.tar.gz,复制到hadoop集群的master节点的根目录下(pig相当于hadoop的一个客户端,他通过master节点就可以操作集群,因此安装在master节点上即可),使用
tar -zxvf pig-0.9.0.tar.gz解压,然后重命名为pig.操作完成后,目录如下:
2 打开~/.bashrc
3 在该文件尾部添加如下内容:
其中PIG_INSTALL为pig文件所在目录,PIG_HADOOP_VERSION为Hadoop的版本(这里使用在前面已经安装好的hadoop.0.20.2),对于PATH变量,需要添加红线部分的内容$PIG_INSTALL/bin;
4 将HADOOP_HOME/conf文件夹复制到PIG_INSTALL/conf文件夹内:
复制完毕以后PIG_INSTALL/conf文件夹的目录结构如图:
5 打开~/.bashrc
3 在最后添加
export PIG_CLASSPATH=$PIG_INSTALL/conf/conf
4 重启XShell客户端(这是由~/.bashrc文件的性质决定)
5进入pig所在节点,输入pig,出现以下内容说明安装成功
默认情况下,pig把日志文件保存在当前目录下,可以通过修改配置文件来更改日志文件的存放目录。
修改方式如下:在PIG_INSTALL/文件夹中新建logs文件夹:
修改PIG_INSTALL/conf/pig.properties文件中的pig.logfile属性值,如下即可:
Pig.logfile=/home/xuyizhen/pig/logs