版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wild46cat/article/details/82712175
1、pig能够使用很多种方式,本地交互方式和集群mapreduce方式等。具体可以在官网上查看,网址:http://pig.apache.org/docs/r0.17.0/start.html
2、我们先使用本地文件方式。这种方式一般是在开发的时候使用的,因为开发的时候需要速度快一些,使用一小部分数据进行验证即可。开发完成后可以使用mapreduce方式。
交互方式本地 pig -x local
A = load '/root/xytest/bb.txt' using PigStorage(':');
B = foreach A generate $0 as id;
dump B;
输出结果:
(root)
(bin)
(daemon)
(adm)
(lp)
(sync)
(shutdown)
(halt)
(mail)
(operator)
(games)
(ftp)
(nobody)
(avahi-autoipd)
(systemd-bus-proxy)
(systemd-network)
(dbus)
(polkitd)
(tss)
脚本方式:
id.pig
A = load '/root/xytest/bb.txt' using PigStorage(':');
B = foreach A generate $0 as id;
dump B;
运行脚本:
pig -x local id.pig
下面是使用mapreduce的方式,这种方式加载文件的时候需要让文件在hdfs中
可以用 hdfs dfs -ls 查看文件情况。
交互方式的时候使用pig即可。
运行脚本的时候使用pig id.pig即可。