spark版WordCount（Java），将输出结果排序，并去除输出文件中的括号。 - 代码天地

spark版WordCount（Java），将输出结果排序，并去除输出文件中的括号。

其他 2018-08-18 12:33:56 阅读次数: 0

本文为spark版的WordCount(java)，主要实现了三个功能：

1.对单词出现的频数进行统计

2.对输出结果中单词的出现的频数从大到小进行了排序

3.去除了输出文件中的括号

具体代码如下：

package com.cxd.core;

import java.util.Arrays;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.sql.SparkSession;

import scala.Tuple2;

public class WordCountLocal {

	public static void main(String[] args) {

		SparkConf conf = new SparkConf().setAppName("WordCountLocal").setMaster("local");
		SparkSession spark = SparkSession.builder().config(conf).getOrCreate();
		
		//wordCount核心代码
		JavaRDD<String> input = spark.read().textFile("words.txt").javaRDD();
		JavaRDD<String> words = input.flatMap(line -> Arrays.asList(line.split(",")).iterator());
		JavaPairRDD<String, Integer> pair = words.mapToPair(word -> new Tuple2<String, Integer>(word, 1));
		JavaPairRDD<String, Integer> res = pair.reduceByKey((v1, v2) -> (v1 + v2));
		//res.saveAsTextFile("wc.out"); 若此时输出，则没有对单词频数进行排序，且有括号。
		
		//将单词出现的次数由高到低输出
        JavaPairRDD<Integer, String> resRDD = res.mapToPair(line -> new Tuple2<Integer, String>(line._2, line._1));		
        JavaPairRDD<Integer, String> tmp = resRDD.sortByKey(false);
		JavaPairRDD<String, Integer> out = tmp.mapToPair(line -> new Tuple2<String, Integer>(line._2, line._1));

		//去掉文件中的括号
		JavaRDD<String> res1 = out.map(line -> {
			String word = line._1;
			int value = line._2;
			return word + "," + value;
		});
		res1.saveAsTextFile("wc.res");
		
		res.foreach(r -> System.out.println(r));
		
	}

}

猜你喜欢

转载自blog.csdn.net/u010592112/article/details/78097150

spark版WordCount（Java），将输出结果排序，并去除输出文件中的括号。

Spark与MR输出文件排序比较

Java中的输出文件

将Java程序的输出结果写到txt文件中

java将结果输出到已知的文件中

java 读取输出文件

Spark自定义输出文件

spark-sql：将查询结果输出到文件

c++中智能输出文件

java以流的形式输出文件

OutPutStream输出文件

输出文件

Python：将print 输出结果保存在txt文件中

spark 调优：控制输出文件的个数

python将print输出结果写入文件

Hadoop学习笔记--运行wordcount时输出文件问题总结

hadoop在进行wordcount时输出文件夹out问题

Java IO：读取文件特定行，将结果输出控制台以及以追加形式写到文件中

java中输入文件流和输出文件流的使用

Ubuntu | 将终端输出结果输出到log日志/文件

Java版Wordcount（包括flatmap切割，maptopair转换，reducebykey排序，foreach遍历输出）【Java版纯代码】

Java-FileInputStream、InputStreamReader、StringBuffer，Java读出文件中的数据到控制台输出

【python】实现输出文件夹中的文件个数

向页面输出文件

ORACLE EBS输出文件

hadoop输出文件格式

向HDFS输出文件

python 递归输出文件

FFmpeg写入输出文件

Java输入输出流读出文件、写入文件

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)