大数据学习之路66-spark安装,单节点 - 代码天地

大数据学习之路66-spark安装,单节点

其他 2018-09-14 14:13:47 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_37050372/article/details/82499290

我们先从单机运行spark开始，将spark解压之后我们先修改配置文件。

spark-env.sh

export JAVA_HOME=/root/app/jdk1.8.0_171
export SPARK_MASTER_HOST=marshal

slaves

localhost

进入sbin,分别启动Master和Worker

start-master.sh

start-slaves.sh

单机方式启动spark shell

bin/spark-shell --master spark://marshal:7077

启动之后我们尝试的写一个wordcount

我们先写

sc

sc是什么呢？就是spark context，spark的上下文，spark就是用它来创建rdd

sc.textFile()

什么是textFile？就是告诉他从哪里读取数据，然后把任务提交到集群中，他就开始从这里面读数据开始计算。

他不但可以从hdfs读数据，还可以从本地读数据。

虽然这里写WordCount的算子和我们之前用scala写的单机版的wordcount很相似，但是两者不同，现在我们用的底层已经不是scala的方法了，而是spark的方法。

sc.textFile("/root/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

虽然这些算子和scala的的方法相似，但是，这些算子将来会被提交到集群中进行分布式并行计算。

我们还可以在此基础上进行排序，现在我们排序的话，如果像要升序的话为true,如果想要降序就为false。不必像之前一样使用reverse了。

sc.textFile("/root/word.txt").
flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect

这里写语句的时候我们要注意我们的rdd是lazy的，必须要激励一下才能执行，这里collect就是一种激励，他的意思是，架构结果收集起来在sparkshell中展示。

那如果我们想将结果保存在文件中也可以：

sc.textFile("/root/word.txt").flatMap(_.split(" ")).map((_,1))
.reduceByKey(_+_).sortBy(_._2,false).saveAsFile("/root/outword)

猜你喜欢

转载自blog.csdn.net/qq_37050372/article/details/82499290

大数据学习之路66-spark安装,单节点

Spark学习笔记(二) 安装Hadoop单节点集群

大数据生态圈单节点环境搭建（hadoop、hbase、spark等）

大数据学习初级入门教程（十四） —— Flume 1.9.x 单节点的安装、配置、启动和测试

【spark实战】大数据部署平台spark扩展新增节点安装文档

spark大数据的学习

大数据学习之路

大数据必经之路-认识Spark

大数据学习(十四)zookeeper简介安装节点类型

大数据学习笔记（四）-spark 安装【原创】

Spark大数据学习笔记_第3篇_Hive的安装

Spark大数据学习笔记_第6篇_flume安装

大数据学习之路94-kafka集群安装

大数据晋级之路（8）Scala,Spark分布式安装

Linux Ubuntu 18.04实战安装大数据Hadoop 3.1.2版本单节点模式

大数据学习之spark

大数据学习——spark笔记

大数据Hadoop，spark学习

大数据学习之路71-用JavaLambda编写Spark的WordCount

大数据学习之路67-spark高可用集群搭建

大数据学习之路70-java编写spark的WordCount程序

大数据学习之路69-scala编写Spark的WordCount程序

大数据学习之路68-spark各个进程的作用简介与yarn的对比

大数据学习之路106-spark streaming统计结果写入mysql

大数据学习之路88-将jar包提交到spark集群需要注意的

大数据学习之路108-spark streaming基于redis历史state统计

大数据学习之路107-spark streaming基于mysql历史state统计

大数据Spark实战高手之路职业学习路线图

大数据学习之路-hdfs

大数据学习之路-简介

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)