大数据处理Pig

Pig用于处理大规模数据的高级查询语言

  • 由两部分组成:用于描述数据流的语言Pig Latin和执行Pig Latin程序的执行环境,使用Pig Latin可以对数据进行加载、排序、过滤、求和、分组、关联、存储操作等。
  • 应用场景:以数据流水线的方式考虑问题,并需要对作业运行方式更细粒度的控制。
  • Pig运行模式:

1、本地模式:grunt shell 方式、脚本文件方式、嵌入式程序方式

2、MapReduce模式:Grunt Shell 方式、脚本文件方式、嵌入式程序方式

  • 常用Pig Latin操作

1、数据加载命令:LOAD

2、数据存储命令:STORE

3、数据转换:分组命令GROUP、过滤命令FILTER、筛选命令LIMIT、去重命令DISTINCT、排序命令ORDER BY,遍历命令FOREACH 、连接命令JOIN等等。。。

Pig Latin是一种面向数据流的编程语言,数据流的特征主要体现在数据处理过程中,以关系为单位将数据进行有序的转换。每一次转换产生一个新的关系,每一个关系保留了此时的数据状态。

猜你喜欢

转载自blog.csdn.net/chechelove886/article/details/84308166