spark java api 开发 - 代码天地

spark java api 开发

编程语言 2018-05-14 21:15:28 阅读次数: 2

安装这里就不写了，因为网上已有中文介绍，这里主要是介绍一下入门，和hadoop一样，学习的时候，首先学习spark提供的字符统计例子：javaWordCount

Java代码

import scala.Tuple2;

import spark.api.java.JavaPairRDD;

import spark.api.java.JavaRDD;

import spark.api.java.JavaSparkContext;

import spark.api.java.function.FlatMapFunction;

import spark.api.java.function.Function2;

import spark.api.java.function.PairFunction;

import java.util.Arrays;

import java.util.List;

public class JavaWordCount {

public static void main(String[] args) throws Exception {

if (args.length 2) {

System.err.println("Usage: JavaWordCount ");

System.exit(1);

}

JavaSparkContext ctx = new JavaSparkContext(args[0], "JavaWordCount",

System.getenv("SPARK_HOME"), System.getenv("SPARK_EXAMPLES_JAR"));

JavaRDD lines = ctx.textFile(args[1], 1);

JavaRDD words = lines.flatMap(new FlatMapFunction() {

public Iterable call(String s) {

return Arrays.asList(s.split(" "));

}

});

JavaPairRDD ones = words.map(new PairFunction() {

public Tuple2 call(String s) {

return new Tuple2(s, 1);

}

});

JavaPairRDD counts = ones.reduceByKey(new Function2() {

public Integer call(Integer i1, Integer i2) {

return i1 + i2;

}

});

List> output = counts.collect();

for (Tuple2 tuple : output) {

System.out.println(tuple._1 + ": " + tuple._2);

}

System.exit(0);

}

}

运行： ./run spark/examples/JavaWordCount local input.txt
local：不解析，自己查

Html代码

Hello World Bye World goole

运行的结果和haddoop中运行的JavaWordCount 一样

Html代码

goole: 1

World: 2

Hello: 1

Bye: 1

所有博客已经转移至leanote： http://blog.leanote.com/shiwei/

或者： http://luoshiwei.me/

猜你喜欢

转载自horse-chasing.iteye.com/blog/2205048

spark java api 开发

spark (java API) 在Intellij IDEA中开发并运行

Spark Java API(二)

Spark Java API(一)

Spark入门及Java Api

Spark Java API：Transformation

Spark Java API：Action

Spark的Java api Demo

Spark基础与Java Api介绍

Spark Java API：broadcast、accumulator

Spark的Java API例子详解

微框架spark--api开发利器

hdfs的Java Api开发

spark java api数据分析实战

基于java api的spark常用算子

Spark API Java编程使用方法

SPARK RDD JAVA API 用法指南

Spark基于Java Api 的词频统计

Spark java本地程序开发

Spark的java开发环境实战

Spark API

zookeeper框架——Java API开发

在eclipse上搭建spark的java开发环境

spark单词统计开发（java版）

spark JAVA 开发环境搭建及远程调试

IDEA开发java版本spark程序

【Spark Java API】Action(3)—foreach、foreachPartition、lookup

Spark 2.4 RDD操作API（Java语言描述）

spark使用java的api读取mysql的几种方式

NoClassDefFoundError: org/apache/spark/api/java/function/PairFunction

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)