Spark案例实战之二

Spark案例实战之二

0.如果打开的是本地文件,则是三个’/’,如file:///usr/local/spark/mycode/wordcount/word.txt
01.reduceByKey((a,b)=> a+b) 把具有相同键的map的value加起来
02,如果是集群环境下,想在driver节点上打印所有结果,就需要使用collect方法,

1.pair RDD的创建方式
01,读取文件
02,通过并行集合(数组)创建RDD
val lines = sc.textFile(“file:///usr/local/spark/mycode/wordcount/word.txt”)
map(word=>(word,1))使用map进行函数操作。形成键值对
val pariRDD = lines.flatMap(line => line.split(” “)).map(word=>(word,1))
pairRDD.foreach(println) 竟然可以将println作为参数

2.pairRDD的通用操作
01,reduceByKey(func)的功能:使用func函数合并具有相同键的值。默认是从左到右,依次累加。【一定要注意:是合并具有相同键的值】
(hadoop,1)
(spark,1)
(hive,1)
(spark,1)
上面具有相同键的值就是spark,spark.
02,系统可以自动推断出来是参数的类型,所有我们在传入参数的时候,就不用写参数的类型了。
reduceByKey((a,b0=>a+b).foreach(println)

03.reduceByKey会进行一个Merge操作
groupBykey 本身不能自定义函数,需要先使用groupBykey之后,再使用map()操作
【上述的代码必须在Spark中使用,而不能尽在scala的环境中使用】

val words = Array(“spark”,”hadoop”,”scala”,”Java”,”spark”)
val result1 = sc.parallelize(words).map(word=>(word,1))
val result2 = result1.reduceByKey(+)
val result3 = result2.groupByKey().map(t=>(t._1,t._2.sum)) 列表是一个Iterator类型,所以可以使用sum进行求和

keys,values,soryByKey

调用sortByKey的前提是:这个东西必须是键值对

val d1 = sc.parallelize(Array((“c”,8),(“e”,8),(“d”,3),(“a”,6),(“c”,2))
d1.reduceByKey(+).sortByKey(flase).collect//必须通过collect操作,才能将所有结果收集到Driver所在的节点上

d1.reduceByKey(+).sortBy(_._2,false).collect

sc.parallelize是什么意思?

val result1 = rdd.groupByKey()
//CompactBuffer是什么?

扫描二维码关注公众号,回复: 2587215 查看本文章

1.hdfs 上传文件的时候,如果里面有多个文件,则需要使用-p参数,否则不能将文件夹中的文件全部上传到其中。
2.hdfs dfs -put /root/donation/block_*/block* /linkage
这里的block_*/block_* 采用了两次的*通配符,简直是太厉害!
3.从hdfs上读入文件:
scala> val rawblocks = sc.textFile(“hdfs://localhost:9000/linkage/block_1.csv”)
rawblocks: org.apache.spark.rdd.RDD[String] = hdfs://localhost:9000/linkage/block_1.csv MapPartitionsRDD[7] at textFile at :24
4.取rdd的第一行
scala> rawblocks.first
res3: String = “id_1”,”id_2”,”cmp_fname_c1”,”cmp_fname_c2”,”cmp_lname_c1”,”cmp_lname_c2”,”cmp_sex”,”cmp_bd”,”cmp_bm”,”cmp_by”,”cmp_plz”,”is_match”

2,groupByKey()
对具有相同key的value进行分组,生成的是列表,但不会将相同key的value累加
(hadoop,1)
(spark,1)
(hive,1)
(spark,1)
得到的结果就是:(spark,(1,2)) (hadoop,1),(hive,1)
[(String,Iterable[Int])] Iterable是一个列表
每次观察返回的RDD是什么类型
可以使用Iterator将列表中的值取出来。

猜你喜欢

转载自blog.csdn.net/liu16659/article/details/81197590
今日推荐