spark读Hadoop文本文件到hive - 代码天地

spark读Hadoop文本文件到hive

其他 2019-01-26 02:22:20 阅读次数: 0

环境
centos：7.2
python2：2.7.5
python3：3.6.5
spart：2.2.0
ambari:2.6.1
hdp：2.6.4

一、指定pyspark的python 通过python3运行
1.软连接python3到/usr/bin/目录下
ln -s /usr/local/python3/bin/python3 /usr/bin/
2.修改/usr/bin/pyspark文件
在文件中增加：
export PYSPARK_PYTHON=python3

二、读取txt文件到spark后保存到HIVE中

# -*- coding: utf-8 -*-
from __future__ import print_function
from pyspark.sql import SparkSession
from pyspark.sql import Row

if __name__ == "__main__":
# 初始化SparkSession
spark = SparkSession \
.builder \
.appName("TextToHive") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()

sc = spark.sparkContext

lines = sc.textFile("hdfs://10.250.11.52:8020/source/db/centercode/20180507")
parts = lines.map(lambda l: l.split(","))
centercode = parts.map(lambda p: Row(centercode=p[0], centername=p[1],qscode=p[2]))

#RDD转换成DataFrame
centercode_temp = spark.createDataFrame(centercode)

#显示DataFrame数据
centercode_temp.show()

#创建视图
centercode_temp.createOrReplaceTempView("t_centercode")
#过滤数据
employee_result = spark.sql("SELECT centercode,centername, qscode FROM t_centercode")
#CREATE HIVE TABLE
spark.sql("CREATE TABLE IF NOT EXISTS oracledb.t_lnt_basic_center_code (centercode STRING, centername STRING,qscode STRING) USING hive")
#追加
spark.sql("insert into table oracledb.t_lnt_basic_center_code select centercode,centername, qscode FROM t_centercode ")
#重写
#spark.sql("insert overwrite table oracledb.t_lnt_basic_center_code select centercode,centername, qscode FROM t_centercode where centercode ='01'")

# DataFrame转换成RDD
#result = employee_result.rdd.map(lambda p: "centercode: " + p.centercode + " centername: " + p.centername+" qscode"+p.qscode).collect()

#打印RDD数据
# for centercode in result:
# print(centercode)

猜你喜欢

转载自blog.csdn.net/qq_39160721/article/details/80251024

spark读Hadoop文本文件到hive

使用FileInputStream 读文本文件

11.把文本文件的数据导入到Hive表中

用Scanner读文本文件内容

读和写文本文件相关的类

利用qt的QFile读文本文件

C# 读文本文件中文乱码

open, 读文本文件-python3

python文本文件的（读、写、追加、存储数据）

python基础复习--读文本文件（19）

Java复制文本文件到其他文本文件中

使用spark中文本文件进行处理

Spark读取文本文件并转换为DataFrame

文本文件导入到Hbase中

保存文本文件到本地(as3.0)(转)

Flume导入文本文件到HBase

Sqlldr把文本文件导入到ORACLE中

UnityWebRequest获取文本文件，并写入到固定目录

C#写入日志到文本文件的源码

C++_写入到文本文件中

JAVA FileWriter写数据到文本文件

Java：追加内容到文本文件

文本文件处理

读写文本文件

【复制文本文件】

文本文件编码

python——文本文件

复制文本文件

读取文本文件

Java读“文本文件”和读“SQLite数据库”对比

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)