在Spark shell中基于HDFS文件系统进行wordcount交互式分析 - 代码天地

在Spark shell中基于HDFS文件系统进行wordcount交互式分析

编程语言 2018-07-02 05:28:43 阅读次数: 0

Spark是一个分布式内存计算框架，可部署在YARN或者MESOS管理的分布式系统中（Fully Distributed），也可以以Pseudo Distributed方式部署在单个机器上面，还可以以Standalone方式部署在单个机器上面。运行Spark的方式有interactive和submit方式。本文中所有的操作都是以interactive方式操作以Standalone方式部署的Spark。具体的部署方式，请参考Hadoop Ecosystem。

HDFS是一个分布式的文件管理系统，其随着Hadoop的安装而进行默认安装。部署方式有本地模式和集群模式，本文中使用的时本地模式。具体的部署方式，请参考Hadoop Ecosystem。

目标：

能够通过HDFS文件系统在Spark-shell中进行WordCount的操作。

前提：

存在一个文件，可通过下面的命令进行查看。

hadoop fs -ls /

如果不存在，添加一个(LICENSE文件需要在本地目录中存在)。更多hadoop命令，请参考hadoop命令。

hadoop fs -put LICENSE /license.txt

通过Web Browser查看Hadoop是否已经运行。

http://localhost:50070

步骤：

Step 1：进入Spark-shell交互式命令行。

spark-shell

Step 2：读取license.txt文件，并check读取是否成功。如果不存在，则提示如下错误。

val s = sc.textFile("hdfs://localhost:9000/license.txt")

s.count

Step 3：设定输出的文件个数并执行统计逻辑

val numOutputFiles = 128

val counts = s.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _, numOutputFiles)

Step 4：保存计算结果到HDFS中

counts.saveAsTextFile("hdfs://localhost:9000/license_hdfs.txt")

Step 5：在shell中查看结果

hadoop fs -cat /license_hdfs.txt/*

结论：

通过HDFS，我们可以在Spark-shell中轻松地进行交互式的分析（word count统计）。

猜你喜欢

转载自blog.csdn.net/shujuelin/article/details/80865791

在Spark shell中基于HDFS文件系统进行wordcount交互式分析

【Spark】基于Spark的大型电商网站交互式行为分析系统项目实战

【项目】美团：Spark在交互式用户行为分析系统中的实践

基于Spark的交互式大数据预处理系统设计与实现（一）概述

Spark WordCount

Spark的WordCount

【Spark】Spark中的Partitioner

【Spark】Spark六： Spark版本的WordCount

Spark job WordCount分析

spark通过spark shell执行WordCount

spark streaming中WordCount

【spark】spark集群的安装和spark shell测试wordcount

基于Spark2.2的交互式用户活跃度分析指定范围访问次数 top10

Spark整合HDFS、WordCount示例

Spark shell

Spark shell交互

spark 中删除HDFS文件

在Spark Shell中编写WordCount程序

Spark（6）——Spark与scala交互

spark学习——spark shell学习

HDFS+Spark(Hive On Spark)+Flume/Shell架构进行大数据分析

[spark] spark推测式执行

spark的shell命令操作(wordcount)

Spark中的Spark Shuffle详解

Spark中的BlockManager及Spark HA

基于Spark下WordCount的Demo

基于spark开发wordcount案例

Spark源码分析之Spark Shell（上）

Spark源码分析之Spark Shell（下）

【公共云支持】MaxCompute Spark支持交互式Zeppelin

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)