hadoop入门--使用Apache Pig统计每个航班班次 - 代码天地

hadoop入门--使用Apache Pig统计每个航班班次

其他 2018-05-08 05:19:18 阅读次数: 4

案例基于hadoop 2.73，伪分布式集群

1，数据包导入hadoop集群hdfs的/user/root目录下

hdfs dfs -copyFromLocal 2008.csv /user/root

2，编写totalmiles.pig脚本

records = LOAD '2008.csv' USING PigStorage(',') AS
(Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,UniqueCarrier,FlightNum,TailNum,ActualElapsedTime,CRSElapsedTime,AirTime,ArrDelay,DepDelay,Origin,Dest,Distance:int,TaxiIn,TaxiOut,Cancelled,CancellationCode,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay);
milage_recs = GROUP records ALL;
tot_miles = FOREACH milage_recs GENERATE SUM(records.Distance);
STORE tot_miles INTO '/user/root/totalmiles';

LOAD：读取hdfs的某个文件或某个目录下所有文件。
USING：默认情况下Pig解析文件内容是以Tab空格相隔进行的，可以指定函数定制Pig解析是以逗号进行的。
AS xx：hdfs可以存储任何原始数据，Pig需要从hdfs读取数据并解析成Pig理解的数据模型。
GROUP … ALL：把每类结果集进行聚合操作。
FOREACH A GENERATE B：A结果集使用B函数转换成一个单一的值。
STORE INTO：把结果存储到hdfs。

3，命令行执行totalmiles.pig脚本

pig -x mapreduce totalmiles.pig

提示：-x+mapreduce/spark/tez等，选择哪一种，是根据集群所选取的计算框架是哪种。

运行情况：

Details at logfile: /usr/test/code/pig_1516001376428.log
2018-01-14 23:29:39,112 [main] INFO  org.apache.pig.Main - Pig script completed in 3 seconds and 128 milliseconds (3128 ms)

4，查看结果

hdfs dfs -cat /user/root/totalmiles/part-r-00000

结果情况：

[root@slave1 code]# hdfs dfs -cat /user/root/totalmiles/part-r-00000
5091775499

资料：
1、《Hadoop For Dummies》
2、《Aapache Pig Getting Started》

猜你喜欢

转载自blog.csdn.net/u012995888/article/details/79065683

hadoop入门--使用Apache Pig统计每个航班班次

hadoop入门--使用MapReduce统计每个航班班次

hadoop pig入门总结

使用 Apache Pig 处理数据

CDH-Hadoop2.6+ Apache Pig0.15安装记录

基于hadoop平台的pig语言对apache日志系统的分析

Hadoop2.2如何集成Apache Pig0.12.1？

Apache Hadoop 入门教程

Apache Hadoop Yarn 入门（一）

hadoop入门程序：词频统计

Apache Pig中如何使用Replace函数

使用Ansj分词器+Pig来统计中文的词频

Hadoop 2.2.0下Pig安装及Pig的基础使用

【Pig一】Pig入门

Apache Hadoop MapReduce WordCount案例编程入门

pig的入门

Apache mina使用入门

Hadoop入门---(wordcount)统计单词出现的次数

MapReduce统计每个用户的使用总流量

Hadoop的mapreduce需求：统计每个州累计确诊病例。

使用Apache Pig时应该注意/避免的操作或事项

Apache Pig使用MongoLoader产生大量空文件问题

Apache Pig与Lucene集成

大数据--Apache Pig

Apache Pig语法简述

使用CDH的hadoop里面有对应的组件Pig

hadoop pig vertica

hadoop pig 安装

[Hadoop]Pig与Hive的区别

Hadoop集群安装Pig

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)