SparkSQL案例:计算平均分

一、提出任务

Spark成绩表-spark.txt

张三丰 94
李孟达 88
唐雨涵 90
王晓云 87
张晓琳 83
佟湘玉 89
杨文达 93
陈燕文 84

Python成绩表-Python.txt

张三丰 88
李孟达 83
唐雨涵 80
王晓云 79
张晓琳 87
佟湘玉 80
杨文达 98
陈燕文 74

Django成绩表-Django.txt

张三丰 74
李孟达 80
唐雨涵 96
王晓云 97
张晓琳 88
佟湘玉 99
杨文达 90
陈燕文 85

预备工作:启动集群与Spark
在这里插入图片描述

在HDFS上新建/score目录

在这里插入图片描述
在master虚拟机上创建三个成绩文件
在这里插入图片描述

将三个成绩文件上传到HDFS的/score目录
在这里插入图片描述
查看三个成绩文件内容
在这里插入图片描述

二、完成任务

(一)新建Maven项目

在这里插入图片描述
将Java目录改为Scala
在这里插入图片描述

(二)添加相关依赖和构建插件

在这里插入图片描述

(三)创建日志属性文件

在这里插入图片描述

(四)创建计算平均分单例对象

在这里插入图片描述

(五)本地运行程序,查看结果

1 张三丰 81.33
2 李孟达 88.67
3 唐雨涵 92.67
4 王晓云 85.00
5 张晓琳 86.67
6 佟湘玉 82.33
7 杨文达 82.00
8 陈燕文 94.33

猜你喜欢

转载自blog.csdn.net/py20010218/article/details/125321949
今日推荐