使用SparkSQL2.x的SQL方式实现WordCount - 代码天地

使用SparkSQL2.x的SQL方式实现WordCount

编程语言 2018-10-18 23:11:09 阅读次数: 0

代码里面有很详细的说明

代码实现：

package cn.ysjh0014.SparkSql

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

object SparkSQLWordCount {

  def main(args: Array[String]): Unit = {

    //创建SparkSession
    val session: SparkSession = SparkSession.builder().appName("SQLWordCount").master("local[4]").getOrCreate()

    //读数据，是lazy

    //Dataset也是一个分布式数据集，是对RDD的进一步分装
    //Dataset只有一列，默认这列叫value
    val lines: Dataset[String] = session.read.textFile(args(0))

    //导入隐式转换
    import  session.implicits._
    val word: Dataset[String] = lines.flatMap(_.split(","))

    //注册表
    word.createTempView("test")

    //执行SQL
    val result: DataFrame = session.sql("SELECT value,COUNT(*) counts FROM test GROUP BY value ORDER BY counts DESC")

    result.show()

    session.stop()


  }
}

运行后你会发现他的速度会变慢，这是因为他会生成执行计划，然后再运行计算

猜你喜欢

转载自blog.csdn.net/ys_230014/article/details/83144616

使用SparkSQL2.x的SQL方式实现WordCount

sparkSQL2.X

SparkSQL入门案例之四(SparkSQL2.x)

使用sparkSQL2.x读取MySQL方法和配置问题

sparksql 2.x 写WordCount

SparkSQL的两种方式实现WordCount案例代码

SparkSQL实现wordCount与资源转换

【SparkSQL】介绍、与Hive整合、Spark的th/beeline/jdbc/thriftserve2、shell方式使用SQL

sparkSql demo II（sql方式）

sparkSql demo I （sql方式）

kafka的receive方式实现WordCount,使用updateStateByKey函数，累加所有批次的wordCount

Springboot2.X 集成 spark2.X 实现WordCount

使用mapreduce实现wordcount

sparkSQL 自定义UDAF函数（弱类型的方式）spark1.x spark2.x

sparkSql-2.x读写hive操作

sparksql 2.x demo I

hadoop 2.x wordcount练习

SparkSQL查询风格SQL与DSL介绍及使用

streaming通过sql实现wordcount代码

SparkSQL in Scala 简单实践(spark 2x)

sparksql(2)

MapperReduce初探系列（2）——WordCount程序的实现

sparkSql的使用

使用Scala实现Spark wordcount统计

Spark使用UDF函数之WordCount实现

使用hadoop的MapReduce来实现WordCount

hadoop3.x M/R 实现wordcount

dorado7.x radioGroup实现2种方式

Vert.x(五): Vert.x-通过异步的方式使用JDBC连接SQL

WordCount的实现

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)