spark复习笔记(1) - 代码天地

spark复习笔记(1)

其他 2018-09-29 19:27:27 阅读次数: 0

使用spark实现work count

----------------------------------------------------

　　(1)用sc.textFile("　　")　　来实现文件的加载

val rdd1 = sc.testFile("home/centos/test.txt");//加载文本文件，以换行符的方式切割文本文件.Array(hello world1 ,.........),产生第一个弹性分布式数据集

　　(2)元素拿来之后对集合中的每个元素进行切割，按照空格进行切割

　　　　def map[U](f:String=>U)(implict evidence$3:scala.reflect.ClassTag[u]):org.apache.spark.rdd.RDD[U]

　　　　这个地方map是柯里化的，有两个参数，第二个是隐式的，函数f是是从String类型到U的映射，把一行按照空格来进行切割

　　　　把每一行进行切割，切开之后，每个元素都变成了一个数组，第一个元素是[hello world1]，第二个元素是[hello world2]，第三个元素是[hello world3]，第四个元素是[hello world4]，这个时候已经变成数组的集合了

　　　(3)val rdd2 = rdd1.flatMap(line=>line.split(" "));　　　　//压扁操作

　　　(4)val rdd3 = rdd2.map(word=>(word,1))　　　　//变换成对偶(k,v)

　　　(5)val rdd4=reduceByKey(_ + _)　　　　　　　//_是对每个元素的引用，按照key来聚合value

　　　(6)rdd4.collect　　　　　　　　　　　　　　//查看结果

　　　(7)一顿操作猛如虎

sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).reduceByKey(_ + _).collect

　　　(8)单词过滤　

sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).filter(_.contains("wor")).map((_,1)).reduceByKey(_ + _).collect

　　

猜你喜欢

转载自www.cnblogs.com/bigdata-stone/p/9726207.html

spark复习笔记(1)

spark复习笔记(2)

spark复习笔记(7):sparkSQL

mysql复习笔记（1）

mybatis复习笔记(1):

java复习笔记1

spark学习笔记1

spark学习笔记_1

Spark学习笔记（1）——

Spark 学习笔记 1

Spark学习笔记——1

spark 笔记1

Spark学习笔记(1)

spark复习笔记(4):RDD变换

spark复习笔记(6):数据倾斜

spark复习笔记(3)：使用spark实现单词统计

HTML复习笔记汇总(1)

C++复习笔记（1）

c++复习笔记1

复习电商笔记-1

Java复习笔记（1）——JVM

【TouchDesigner笔记】复习NO.1

Java复习基础笔记1

spark 笔记1 -- spark程序连接

[笔记迁移][Spark][1]Spark环境搭建

Spark SQL 笔记(1)—— Hive

Spark学习笔记(1)RDD

java基础复习笔记（1）----线程（1）

Java复习笔记1-—String相关

Tensorflow复习笔记1：基础的softmax模型

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)