pig的安装及简单的操作

解压

这里写图片描述

配置PIG_HONE

vim ~/.bash_profile

这里写图片描述

验证

出现如下信息则成功

pig [-]help

这里写图片描述
这里写图片描述

启动

Pig 有两种运行模式:Local 模式和 MapReduce 模式。Local 模式只能访问本地
系统文件,一般用于处理小规模的数据集,不需要 Hadoop 集群环境的支持。
MapReduce 模式运行于 Hadoop 集群环境上,Pig 将 Pig Latin 程序编译为
MapReduce 作业执行。Pig 程序的运行由三种方法:脚本文件、Grunt Shell 和程
序嵌入式。这三种方法均适用于 Local 模式和 MapReduce 模式,在 Local 模式与
MapReduce 模式下的执行几乎一样,只需说明采用的模式就行。

Local 模式
(1)Grunt Shell
命令:pig -x local
这里写图片描述

扫描二维码关注公众号,回复: 2591116 查看本文章

(2)脚本文件
命令:pig -x local xxx.pig
xxx.pig 为对应的 Pig 脚本文件。这里要指定绝对路径为佳。
(3)程序嵌入式
将 Pig 命令嵌入到其他高级语言所写的文件中,直接运行程序,和原来运行
普通程序的方式完全一样。如:
javac -cp xxx.jar:. local
3.2 MapReduce 模式
在 MapReduce 模式下,Pig 会将查询翻译为相应的 MapReduce 作业,接着在
Hadoop 集群上运行,其本质还是 MapReduce 作业。所以,如果没有设置
HADOOP_HOME 环境变量,需要先设置
验证:
pig -x mapreduce
这里写图片描述

查看
这里写图片描述

操作数据

A = LOAD 'data.txt' USING PigStorage(' ') AS (ip:chararray);
B = FOREACH(GROUP A BY ip) GENERATE group AS ip,COUNT(A) AS clickes;

这里写图片描述
这里写图片描述

Result:
输入:

DUMP

这里写图片描述

如果要提取点击次数最高的前 3 个 IP,则进行如下操作:

C = ORDER B BY clickes DESC;
D = LIMIT C 3;

这里写图片描述
这里写图片描述

猜你喜欢

转载自blog.csdn.net/Magic_Ninja/article/details/80649332
pig
今日推荐