pig的安装及简单的操作

解压

这里写图片描述

配置PIG_HONE

vim ~/.bash_profile

这里写图片描述

验证

出现如下信息则成功

pig [-]help

这里写图片描述

启动

Pig 有两种运行模式：Local 模式和 MapReduce 模式。Local 模式只能访问本地
系统文件，一般用于处理小规模的数据集，不需要 Hadoop 集群环境的支持。
MapReduce 模式运行于 Hadoop 集群环境上，Pig 将 Pig Latin 程序编译为
MapReduce 作业执行。Pig 程序的运行由三种方法：脚本文件、Grunt Shell 和程
序嵌入式。这三种方法均适用于 Local 模式和 MapReduce 模式，在 Local 模式与
MapReduce 模式下的执行几乎一样，只需说明采用的模式就行。

Local 模式
（1）Grunt Shell
命令：pig -x local
这里写图片描述

扫描二维码关注公众号，回复： 2591116 查看本文章

（2）脚本文件
命令：pig -x local xxx.pig
xxx.pig 为对应的 Pig 脚本文件。这里要指定绝对路径为佳。
（3）程序嵌入式
将 Pig 命令嵌入到其他高级语言所写的文件中，直接运行程序，和原来运行
普通程序的方式完全一样。如：
javac -cp xxx.jar:. local
3.2 MapReduce 模式
在 MapReduce 模式下，Pig 会将查询翻译为相应的 MapReduce 作业，接着在
Hadoop 集群上运行，其本质还是 MapReduce 作业。所以，如果没有设置
HADOOP_HOME 环境变量，需要先设置
验证：
pig -x mapreduce
这里写图片描述

查看
这里写图片描述

操作数据

A = LOAD 'data.txt' USING PigStorage(' ') AS (ip:chararray);
B = FOREACH(GROUP A BY ip) GENERATE group AS ip,COUNT(A) AS clickes;

这里写图片描述

Result:
输入：

DUMP

这里写图片描述

如果要提取点击次数最高的前 3 个 IP，则进行如下操作：

C = ORDER B BY clickes DESC;
D = LIMIT C 3;

这里写图片描述

pig的安装及简单的操作

猜你喜欢