执行本地文件加载在hive中的py脚本及依赖安装记录

其他 2019-07-04 20:31:17 阅读次数: 0

知识共享许可协议

版权声明：署名，允许他人基于本文进行创作，且必须基于与原先许可协议相同的许可协议分发本文（Creative Commons）

脚本demo

脚本功能：把本地文件加载在hive中

#!/usr/bin/env python 
# encoding: utf-8 

"""
@version: v1.0
@author: chey
@contact: ~
@software: PyCharm
@file: test.py.py
@time: 2019-07-03 15:56
"""

"""
创建分区表：
CREATE TABLE test_part
(
name string,
sex string
)
partitioned by (month string)
row format delimited fields terminated by '\t';
"""
"""
t1.txt
陈二	男生	201907
张三	男生	201907
里斯	女生	201907
王五	女生	201907
"""
from pyhive import hive

# 创建连接
conn = hive.Connection(host='xx.xx.xx.xxx', port=10000, username='bigdata', database='default')
cursor = conn.cursor()

# 创建目录
cursor.execute("dfs -mkdir -p /user/hive/warehouse/test_part/month=201907")
# 上传目录
cursor.execute("load data local inpath '/opt/datas/t1.txt' into table test_part partition(month='201907')")

# 查询
cursor.execute("select * from test_part where month='201907'")
for result in cursor.fetchall():
    print(result)

依赖安装记录

$ sudo pip3 install pyhive
$ sudo pip3 install thrift
$ sudo pip3 install sasl
$ sudo yum install gcc-c++ python-devel.x86_64 cyrus-sasl-devel.x86_64
$ sudo pip3 install sasl
$ sudo pip3 install thrift_sasl

总结一下：

要load的数据文件必须在hiveserver2所在节点，且文件所在的这个文件夹要有x权限，不然执行不然load操作，报“Invalid path ‘/path’:No files matching path file”异常。
可以使用LOAD DATA方式加载HDFS上的数据，就不会有这样的限制。
hiveserver2所在节点不必要装python环境，哪个节点跑python脚本就在那个节点装下python3环境以及依赖库即可。
跑python脚本的节点可以是集群上的节点，也可以是集群外的节点，更没必要一定放在有hive的节点上执行。

猜你喜欢

转载自blog.csdn.net/qq_30552441/article/details/94576094

执行本地文件加载在hive中的py脚本及依赖安装记录

通过bat脚本直接执行py文件

本地文件加载到hive表

Windows + WSL2 的 docker 安装方法，以及配置 python 环境、传输文件并执行 .py 脚本

py脚本打包exe可执行文件

命令行执行py文件无法加载module

script中脚本的加载和执行

gradle加载本地依赖

hive执行hql脚本

[Hive] 脚本的执行方式

Hive 脚本执行

hive：执行hql脚本

0 hive 简介,安装,本地文件上传到hive操作

powershell:无法加载文件ps1，因为在此系统中禁止执行脚本

powershell(一)无法加载文件，因为在此系统中禁止执行脚本

hive学习总结(3)—从文件中加载执行语句

python 执行py文件

python3执行.py文件的路径，与.py文件中编写中的路径问题

maven 依赖中添加本地jar包记录

Python脚本文件(.py)打包为可执行文件(.exe)即避免命令行中包含Python解释器

配置HIVE执行的本地模式

hive设置本地执行方式

python 在notepad 中写py脚本文件

Python代码中执行另外一个.py文件

python中执行另一个py文件

Hive 导出本地文件

Eclipse中执行sql脚本文件

在linux中执行脚本文件

简单的shell脚本执行hive

将python写的脚本.py文件转成.exe可执行文件

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)