【Spark学习】使用Spark SQL操作外部hive数据库 - 代码天地

【Spark学习】使用Spark SQL操作外部hive数据库

物联网 2020-05-24 10:34:21 阅读次数: 0

一.基本介绍
默认情况下，spark自带hive，可以直接在spark-shell使用spark.sql("…")来操作内置的hive数据库

二.使用外部hive
①删除spark中内置的hive。即删除metastore_db和spark-warehouse文件夹
②将外部hive中的hive-site.xml文件复制到spark/conf中
③将mysql-connector-java-5.1.39.jar拷贝到jars目录下
④重启spark-shell
⑤这时spark.sql("…")访问的就是外部的hive了
⑥也可以使用bin/spark-sql命令行操作hive

三.案例演示
在这里插入图片描述
1.将该数据文件上传到Linux，数据默认分割符为逗号 ,
2.在hive中创建spark数据库

3.在spark数据库中建表

SQL语句参考

CREATE TABLE  law ( 
ip bigint, 
area int,
ie_proxy string, 
ie_type string ,
userid string,
clientid string,
time_stamp bigint,
time_format string,
pagepath string,
ymd int,
visiturl string,
page_type string,
host string,
page_title string,
page_title_type int,
page_title_name string,
title_keyword string,
in_port string,
in_url string,
search_keyword string,
source string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
STORED AS TEXTFILE;

4.将上传的文件导入数据表
在这里插入图片描述
5.查看表结构

6.查看前10行

7.使用spark-shell操作hive数据表
使用spark.sql(“show databases”).show查看到了hive的中数据库，就代表spark可以正常操作hive了

8.查看表结构

9.查看前50行数据

猜你喜欢

转载自blog.csdn.net/xiexianyou666/article/details/106295919

【Spark学习】使用Spark SQL操作外部hive数据库

Spark SQL操作Hive数据库

Spark学习之使用Spark SQL读取数据库

spark SQL学习（spark连接hive）

Spark学习之Spark SQL

Spark学习笔记：Spark SQL

Spark 04 Spark SQL 使用

Spark学习（陆）- Spark操作外部数据源

Spark学习之RDD操作使用（pyspark）

Spark sql操作Hive

Spark操作MySQL，Hive并写入MySQL数据库

Spark SQL整合Hive使用

Spark SQL操作外部数据源

spark学习记录（十一、Spark on Hive配置）

如何使用hive on spark

spark SQL学习（认识spark SQL）

spark学习笔记2（使用spark Sql进行离线数据分析项目）

spark SQL 学习

Spark SQL学习

Spark 学习（5）SQL

Spark SQL学习笔记

【Spark九十四】spark-sql工具的使用

spark streaming 中使用 spark sql

Spark学习笔记：Spark Streaming与Spark SQL协同工作

Python+Spark2.0+hadoop学习笔记——RDD、DataFrame和Spark SQL数据库相关操作

Spark SQL外部数据源综合使用(Hive和MySQL进行Join)

spark学习 —— 键值对操作

6.3 使用Spark SQL读写数据库

Spark学习（肆）- 从Hive平滑过渡到Spark SQL

spark大数据的学习

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)