【软件工程实践】Pig项目1-什么是Pig

2021SC@SDUSC

PIG在大数据平台中的位置与作用

题主并没有上过大数据相关的课程,拿出了一份之前扫盲的时候整理的资料来带给大家

Pig是一种高级数据语言,运行于HDFS之上,是hadoop上层的衍生架构

主要的几种大数据架构及其之间的关系如下图所示

 按照不同功能进行划分,一些的大数据项目可以如下所示

 由上图可以看出,Pig是一种查询平台,我的资料中还有以下的引用:

简介:Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。

Pig最大的作用就是对mapreduce算法(框架)实现了一套shell脚本 ,类似我们通常熟悉的SQL语句,在Pig中称之为Pig Latin,在这套脚本中我们可以对加载出来的数据进行排序、过滤、求和、分组(group by)、关联(Joining),Pig也可以由用户自定义一些函数对数据集进行操作,也就是传说中的UDF(user-defined functions)。

Pig官方网站>>>

Pig Latin介绍

Pig Latin是一种SQL like语言 ,其功能和SQL类似

Pig源码获取

首先访问Pig官网

 点击侧边栏的Releases,下拉,找到Download标题,->Downloqd a release now!

点第一个网址https://dlcdn.apache.org/pig

进去后页面是这样的

 选择下载pig-0.17.0-src.tar.gz

下载后是个压缩文件,解压后用任意编程软件打开就行了

核心代码目录

根据小组分工,本人接下来将对Pig的数据类型进行分析,代码集中于/data目录

 

 

 

 

Guess you like

Origin blog.csdn.net/Aulic/article/details/120449698