sparksql查询完数据保存到一个文件中，并且不出现乱码 - 代码天地

sparksql查询完数据保存到一个文件中，并且不出现乱码

其他 2020-03-01 22:42:16 阅读次数: 0

实例代码：

object movies2{

  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder()
      .appName("movies")
      .master("local[*]")
      .getOrCreate()

    val lines: Dataset[String] = spark.read.textFile("file:///C:\\Users\\lenovo\\Desktop\\app-2019-12-12.log")
    import spark.implicits._
//    21022734,妈妈的朋友,2019-05-15 08:58:05,5.2,搜秀影院
    val movies: Dataset[(Int, String, Int, Int, Double, String)] = lines.map(x => {
      val s: Array[String] = x.split(",")
      val userId: Int = s(0).toInt
      val movieName: String = s(1)
      //2019052011
      val day: Int = DateUtils.parseToMin(s(2)).substring(0,6).toInt
      val hours: Int = DateUtils.parseToMin(s(2)).substring(8, 10).toInt
      val score: Double = s(3).toDouble
      val cinema: String = s(4)
      (userId, movieName, day, hours, score, cinema)
    })

    val df: DataFrame = movies.toDF("userId","movieName","day","hours","score","cinema")
    df.createTempView("movies")
//    val r: DataFrame = spark.sql("select * from movies")
//    r.show(30)
    val rs1: DataFrame = spark.sql("select hours,count(*) as count from movies where day = 201912 group by hours order by hours")
    println("某月（12月）内电影观看时间点分布：")
    rs1.show(24)

    val rs2: DataFrame = spark.sql("select cinema,count(*) as Box_office from movies where day = 201912 group by cinema order by Box_office desc")
    println("某月（12月）电影院票房统计")
    rs2.show()
    //将分析后的数据写到一个文件中，调用coalesce方法传入分区数
    rs2.coalesce(1).write.format("csv").save("/fengrui")
    //或者下面这个
    rs2.coalesce(1).write.csv("/fengrui2")
    rs2.coalesce(1).write.json("/fengrui2")

  }

}

我的结果放到hdfs上了，只生成一个文件，不调用coalesce的话会按照并行度来切分文件，会落地好多文件，看起来不方便

，json或者CSV格式数据不会有乱码出现

蔡培育的小弟

发布了85 篇原创文章 · 获赞 3 · 访问量 2516

私信关注

猜你喜欢

转载自blog.csdn.net/Romantic_sir/article/details/103570808

sparksql查询完数据保存到一个文件中，并且不出现乱码

Spark把RDD数据保存到一个单个文件中

sparksql读取hive中的数据保存到hdfs中

将视频中所有图片保存到一个文件夹中

Python Matplotlib 画多个图保存到一个pdf文件中

序列化保存到一个文件

爬取一个网页保存到本地文件

转 Jmeter如何把响应数据的结果保存到本地的一个文件

【网络编程】输入一个网址，获取网页内容，并保存到一个html文件中

利用递归算法，把一个文件的所有文件都保存到数据库中，并在控制台打印出来

jmeter参数化- 提取一个或多个响应值保存到csv文件中，并通过csv数据文件设置进行调用

读一个文件夹内的所有文件名字保存到一数组中

用DOS命令Dir把一个文件夹里的文件名保存到txt中

java 读取目录下所有word 文档及子目录文档中的图片，并且保存到一个地方

利用正则表达式读取txt文件中的邮箱,电话号码,url地址,手机号,将数据一行一个保存到一个新的文件中去

爬虫采集到的数据保存到CSV文件中乱码问题的解决办法

dialog在关闭的时候会刷新页面，并且地址后面多加了一个问号，导致数据查询不出来的解决方法

android 把数据保存到文件中的实例

查询一个表中名字相同的数据，并且显示出来,并且显示重复个数

读取.properties配置文件并保存到另一个.properties文件内

读取文件内容——读取一个二进制文件，然后保存到另外一个文件

将SparkSql查询到的结果保存到本地

计算公元纪年法总天数及星期几(用自己的一个思路)查询日历保存到文本文件

php抓取数据并且保存到Excel

一个类实现Java截屏并保存到指定文件夹

MongoDB - 将查询结果保存到excel文件中

monodb，根据条件查询到指定数据，保存到另一张表中

在linux上scrapyd部署scrapy项目时出现service_identity，并且不能识别其中的一个opentype模块

windows的bat脚本连接字符串并保存到一个临时变量中

用类实现一个图书馆，实现借书，入库，还书，查书，等功能，要求数据可以保存到文件中，退出后下次可以找回数据

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)