Spark集成开发环境 - 代码天地

Spark集成开发环境

其他 2018-05-12 06:37:15 阅读次数: 2

Scala and INTELLIJ IDEA

根据Scala官方文档指示安装INTELLIJ的Scala插件。

然后就可以愉快地在INTELLIJ IDEA里面书写Scala代码了。

其实本文所指spark集成开发环境就是scala开发环境。

有了这个开发环境我们只需以下几步：

添加spark依赖

在项目下的build.sbt里面添加对spark的依赖：
注意最后一行

name := "scalaAllIn"

version := "0.1"

scalaVersion := "2.11.12"

libraryDependencies ++= Seq("org.scalatest" %% "scalatest" % "3.0.4" % Test ,
  "org.apache.spark" %% "spark-core" % "2.2.1")

利用SparkContext编写一个文本去重的work

example.DistinctWords

package example

import org.apache.spark.{SparkConf, SparkContext}

object DistinctWords {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("words distinct")
    val sc = new SparkContext(conf)
    // Load our input data.
    val input = sc.textFile(args(0))
    // Split it up into words.
    val words = input.flatMap(line => line.split(" "))
    //    去重
    val res = words.distinct()
    // Save the word count back out to a text file, causing evaluation.
    res.saveAsTextFile(args(1))
  }
}

设置程序的参数并运行

即设置input的位置和output的位置

这里写图片描述

然后就可以运行了

本文示例文件和结果

示例文件：
text1

apple apple banana orange

text2

扫描二维码关注公众号，回复： 566664 查看本文章

banana orange meat

用spark的api进行去重后，结果为：

这里写图片描述

→ cat *
orange
apple
banana
meat

where to go

通常spark RDD的数据来自HDFS，而不像本例是来自本地文件，这个好说，输入路径和输出路径改成hdfs的url即可；
spark的任务在生产环境下是提交给集群的，而不像本例是提交给单机的；
下一步应深入学习如何使用spark和scala来处理、分析数据或者完成机器学习任务。

猜你喜欢

转载自blog.csdn.net/zhengwei223/article/details/78980526

Spark集成开发环境

IDEA集成Spark开发环境

spark开发环境——IntelliJ IDEA安装及集成

机器学习 - 开发环境安装pycharm + pyspark + spark集成篇

【Spark】（一）Windows上集成开发环境的搭建

Spark开发环境搭建

Spark 开发环境搭建

搭建Spark开发环境

集成开发环境

eclipse （集成开发环境）

python集成开发环境

Java——集成开发环境

spark (2)spark开发环境搭建

Spark 系列（二）—— Spark 开发环境搭建

Spark 系列（二）—— Spark开发环境搭建

Liunx搭建Spark开发环境

spark运行及开发环境搭建

Spark开发环境搭建（for Eclipse）

Jupyter配置Spark开发环境

spark本地开发环境搭建

Spark的java开发环境实战

PyCharm搭建Spark开发环境

Mac搭建spark开发环境

Spring Boot与Spark、Cassandra集成开发

集成开发环境MyEclipse介绍

python IDE（集成开发环境）

集成开发环境(IDE)介绍

python集成开发环境pycharm

Python集成开发环境搭建

妙用IDE（集成开发环境）

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)