[spark程序]统计人口平均年龄（HDFS文件）（详细过程） - 代码天地

[spark程序]统计人口平均年龄（HDFS文件）（详细过程）

其他 2018-07-22 20:23:37 阅读次数: 0

一、题目描述

（1）请编写Spark应用程序，该程序可以在分布式文件系统HDFS中生成一个数据文件peopleage.txt，数据文件包含若干行（比如1000行，或者100万行等等）记录，每行记录只包含两列数据，第1列是序号，第2列是年龄。效果如下：

（2）请编写Spark应用程序，对分布式文件系统HDFS中的数据文件peopleage.txt的数据进行处理，计算出所有人口的平均年龄。

二、实现

1、在分布式文件系统HDFS中生成一个数据文件peopleage.txt

1）启动hadoop

start-dfs.sh

2）在HDFS中创建程序存放目录

hdfs dfs -mkdir -p /swy/resource/peopleage

3）编辑生成peopleage.txt的程序GeneratePeopleAgeHDFS.scala

代码：

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import scala.util.Random

object GeneratePeopleAgeHDFS {
    def main(args: Array[String]) {
        val outFile = "hdfs://localhost:9000/swy/resource/peopleage/peopleage.txt"
        val conf = new SparkConf().setAppName("GeneratePeopleAgeHDFS").setMaster("local[2]")
        val sc = new SparkContext(conf)
        val rand = new Random()
        val array = new Array[String](1000)
        for(i <- 1 to 1000) {
            array(i-1) = i +" "+ rand.nextInt(100)
        }
        val rdd = sc.parallelize(array)
        rdd.foreach(println)
        rdd.saveAsTextFile(outFile)
    }
}

4）打包运行

5）可以看到HDFS中已经有了peopleage.txt文件

查看：

2、计算平均年龄

使用前面创建的CountAvgage.scala文件

运行：

结果：

原文：http://dblab.xmu.edu.cn/blog/1756-2/

猜你喜欢

转载自www.cnblogs.com/suwy/p/9350907.html

[spark程序]统计人口平均年龄（HDFS文件）（详细过程）

[spark程序]统计人口平均年龄（本地文件）（详细过程）

计算人口平均年龄

求平均年龄

平均年龄

01:求平均年龄

平均年龄，，数字求和

如何带平均年龄大的团队

如何带平均年龄小的团队

PKU-求平均年龄

[转]如何带平均年龄小的团队

牛客网——求平均年龄（水题）

计蒜客 T1315 平均年龄

循环：录入五个人的年龄，并计算平均年龄

Spark On Yarn(HDFS HA)详细配置过程

机构：去年购房者平均年龄近30岁

谁是淘宝创业主力军？平均年龄26 小镇青年占比高

小韦老师@神犇营-my0116-求平均年龄

【牛客网】北京大学求平均年龄解题报告

求平均年龄（信息学奥赛一本通-T1059）

C/C++编程学习 - 第13周 ④ 求平均年龄

1.5编程基础之循环控制 01 求平均年龄

被誉为“芯片之母”，中国团队拿下EDA全球冠军，平均年龄24岁

Java集合练习题求学生对象的平均年龄及按班级求平均分数

C语言建立一个链表，其每个结点代表一位学生的信息。信息从文件student.in读取。求平均年龄；并且按字母顺序对链表排序，输出排序后的学生姓名和学号

调查：韩国人平均年龄突破40大关男女比例不足1

中国互联网公司员工平均年龄出炉，你怎么看？我躺着看

String[] str ={“张三-22”，“李四-23”，“王五-21”，“赵六-14”}，计算这些人的平均年龄。

spark streaming - scala统计hdfs

hdfs读写文件过程

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)