transform调用脚本 - 代码天地

transform调用脚本

其他 2020-03-26 23:40:01 阅读次数: 0

Hive专栏
上一篇	主目录	下一篇

目录

【前言】
在使用hive处理数据时，除了可以使用内置函数、用户自定义函数UDF，还可以使用hql调用脚本，这种调用脚本的方式由Hive的 TRANSFORM 关键字提供。

一个实例
Json数据： {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}
需求：把timestamp的值转换成日期编号

先加载rating.json文件到hive的一个原始表 rate_json

create table rate_json(line string) row format delimited;  
load data local inpath '/home/hadoop/rating.json' into table rate_json;

创建rate这张表用来存储解析json出来的字段

create  table  rate(movie  int,  rate  int,  unixtime  int,  userid  int)  row  format  delimited  fields  terminated by '\t';

解析json，得到结果之后存入rate表

insert into table rate select   
get_json_object(line,'$.movie') as movie,  
get_json_object(line,'$.rate') as rate,  
get_json_object(line,'$.timeStamp') as unixtime,   get_json_object(line,'$.uid') as userid   
from rate_json;

使用transform+python脚本的方式去转换unixtime为weekday
创建最后的用来存储调用python脚本解析出来的数据的表：lastjsontable

create table lastjsontable(movie int, rate int, weekday int, userid int) row format delimited  fields terminated by '\t';

编辑一个python脚本文件

 vi weekday_mapper.py

#!/bin/python  
import sys  
import datetime  
for line in sys.stdin:  
  line = line.strip()  
  movie,rate,unixtime,userid = line.split('\t')  
  weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
  print '\t'.join([movie, rate, str(weekday),userid])

保存文件。然后，将文件加入hive的classpath：

hive>add file /home/hadoop/weekday_mapper.py;  
hive> insert into table lastjsontable select transform(movie,rate,unixtime,userid)  using 'python weekday_mapper.py' as(movie,rate,weekday,userid) from rate;

最后查询看数据是否正确：

select distinct(weekday) from lastjsontable;

发布了180 篇原创文章 · 获赞 149 · 访问量 6万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_33208851/article/details/104876436

transform调用脚本

Unity脚本API—Transform 变换

脚本与脚本的调用

xsl 和xml transform方法的调用

transform

Hive中的TRANSFORM：使用脚本完成Map/Reduce

Unity 3D脚本使用系列： Transform基本类

java调用shell脚本

java调用python脚本

调用Lua 脚本

java 调用 Python 脚本

在脚本中调用MySQL

Qt调用JS脚本

QTP脚本的调用

Java调用Groovy脚本

调用远程shell脚本

Java调用系统脚本

Swift 调用 Shell 脚本

Java：调用Shell脚本

BIRT 调用 SPL 脚本

终端调用python脚本

JasperReport 调用 SPL 脚本

python的脚本调用问题

Matlab 调用 Python 脚本

wlst脚本调用

python调用matlab脚本

delphi 调用js脚本

shell 远程调用脚本

Jmeter调用java脚本

shell脚本的调用方式

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)