spark复习笔记(1)

使用spark实现work count

----------------------------------------------------

  (1)用sc.textFile("  ")  来实现文件的加载

val rdd1 = sc.testFile("home/centos/test.txt");//加载文本文件,以换行符的方式切割文本文件.Array(hello world1 ,.........),产生第一个弹性分布式数据集

  (2)元素拿来之后对集合中的每个元素进行切割,按照空格进行切割

    def map[U](f:String=>U)(implict evidence$3:scala.reflect.ClassTag[u]):org.apache.spark.rdd.RDD[U]

    这个地方map是柯里化的,有两个参数,第二个是隐式的,函数f是是从String类型到U的映射,把一行按照空格来进行切割

    把每一行进行切割,切开之后,每个元素都变成了一个数组,第一个元素是[hello world1],第二个元素是[hello world2],第三个元素是[hello world3],第四个元素是[hello world4],这个时候已经变成数组的集合了

   (3)val rdd2 = rdd1.flatMap(line=>line.split(" "));    //压扁操作

   (4)val rdd3 = rdd2.map(word=>(word,1))    //变换成对偶(k,v)

   (5)val rdd4=reduceByKey(_ + _)       //_是对每个元素的引用,按照key来聚合value

   (6)rdd4.collect              //查看结果

   (7)一顿操作猛如虎

sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).reduceByKey(_ + _).collect

   (8)单词过滤 

sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).filter(_.contains("wor")).map((_,1)).reduceByKey(_ + _).collect

  

猜你喜欢

转载自www.cnblogs.com/bigdata-stone/p/9726207.html