Pig脚本从Hive中load数据并存入到Hbase中 - 代码天地

Pig脚本从Hive中load数据并存入到Hbase中

其他 2018-10-21 16:32:54 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/fengzheku/article/details/50418348

1、我们先建一个Hive表test01:

create table test01(name String, age int, phone String,province String, city String) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;

2、在目录data1下创建文件testdata，里面内容为：

Liming 20 15960096791 Beijing Beijing
Wanggang 30 13854285991 Shandong Qingdao

中间是以tab键分隔开

3、往hive表里插入数据：

load data local inpath '/data1/testdata' overwrite into table test01;

4、创建Hbase表，确定列簇名

create 'hive01',{NAME => 'info', VERSIONS => 1},{NAME => 'address', VERSIONS => 1}

5、创建pig脚本：

--pig脚本执行需要的jar包，包含hadoop,hive,hbase等基本的jar包

register /opt/cloudera/parcels/CDH/jars/*.jar

--从hive表里load数据
data = load 'test03' USING org.apache.hcatalog.pig.HCatLoader();

--遍历data，把第一个数据当做Hbase表的key
data1= foreach data GENERATE (chararray)$0 as key,(chararray)$1,(chararray)$2,(chararray)$3,(chararray)$4;

--存入Hbase表hive01里，其中$0是hbase表的key
STORE data1 INTO 'hbase://hive01' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('info:age,info:phone,address:province,address:city');

6、另一种pig脚本：

如果hive的存储格式是parquet，我们可以用ParquetLoader去获取hive中的数据，这种load方式的路径是hive表存在hdfs上的路径而不是表名：

register /opt/cloudera/parcels/CDH/jars/*.jar

--load的路径是hive表所在hdfs的位置
data = load '/user/hive/warehouse/test03/' USING parquet.pig.ParquetLoader as (name:chararray,age:chararray,phone:chararray,province:chararray,city:chararray);

data1= foreach data GENERATE (chararray)$0,(chararray)$1,(chararray)$2,(chararray)$3,(chararray)$4;

STORE data1 INTO 'hbase://hive01' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('info:age,info:phone,address:province,address:city');

猜你喜欢

转载自blog.csdn.net/fengzheku/article/details/50418348

Pig脚本从Hive中load数据并存入到Hbase中

java读取word中的表格并存入到mysql数据库中实例

读取xml文件中标签对应的数据转成javaBean并存入到数据库中

逐行读取txt文件并存入到数组中

flume整合数据到kafka，sparkStreaming消费数据，并存储到hbase和redis中

java读取.xlsx数据并存入.txt文件中

Python爬取疫情数据并存入mysql中

Python爬虫——显示疫情数据并存入mysql中

hive使用load加载数据到表中

Pig、HBase、Hive 的比较

HDFS、hbase、Hive、Pig

大数据之hbase（五） --- 导出Hbase的表文件到HDFS，Hbase Bulk Load Hbase，MySQL数据通过MR导入到Hbase表中

枚举类型的数据存入到map中

mvc中ajax 提交富文本框中的值并存入数据库

Django小项目--待办清单（四）（从表单中获取数据并存入数据库）

java程序基于POI导出数据并存入excel中详细教程（基于SSM框架）

java程序基于POI导出数据并存入excel中详细教程（基于SSM框架）

使用python爬谜语并存入mysql数据库中

Hive、Pig、HBase的关系与区别

易筋经Hive——使用load命令导入数据到Hive的“SequenceFile”或“OCRFile”数据表中时出现错误问题的解决

Flume 将8888端口接收的数据存入hive中

(转)使用Hive读取Hbase中的数据

使用Hive读取Hbase中的数据

hbase数据迁移到hive中

Sqoop的基本操作，以及导入Oracle和MySQL中的数据到Hive、HDFS、HBase

统计Txt中数字个数并存入链表

java爬取天眼查并存入excel中

scrapy爬取新浪微博并存入MongoDB中

从hdfs中插入数据到hbase中

delphi中如何实现DBGrid中的两列数据想减并存入另一列

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)