Python+Spark2.0+hadoop学习笔记——Hadoop MapReduce - 代码天地

Python+Spark2.0+hadoop学习笔记——Hadoop MapReduce

其他 2020-03-27 19:17:27 阅读次数: 0

MapReduce是一种程序开发模式，可以使用大量服务器来并行处理。MapReduce，就是Map分配工作，Reduce将工作结果汇总整理。

本次之中以WordCount为范例，计算文件中每一个英文单词出现的次数。

1）创建wordcount目录

mkdir -p ~/wordcount/input

cd ~/wordcount

使用sudo gedit WordCount.java来编辑文档。

2）编译WordCount.java

sudo gedit ~/.bashrc

然后加入配置文件

让~/.bashrc设置生效

source ~/.bashrc

扫描二维码关注公众号，回复： 10225838 查看本文章

接下来开始编译

hadoop com.sun.tools.javac.Main WordCount.java

jar cf wc.jar WordCount*.class

ll

3）创建测试文本文件

cp /usr/local/hadoop/LICENSE.txt ~/wordcount/input

ll ~/wordcount/input

接下来启动所有虚拟服务器

启动集群

start-all.sh

上传测试文件到HDFS目录

hadoop fs -mkdir -p /user/wordcount/input

切换到~/wordcount/input目录

cd ~/wordcount/input

上传文本文件到HDFS

hadoop fs -copyFromLocal LICENSE.txt /user/wordcount/input

列出HDFS文件

hadoop fs -ls /user/wordcount/input

4）运行WordCount.java

切换目录

cd ~/wordcount

运行WordCount程序

hadoop jar wc.jar WordCount /user/wordcount/input/LICENSE.txt /user/wordcount/output

5）查看运行结果

查看HDFS的目录

hadoop fs -ls /user/wordcount/output

查看HDFS中的输出文件内容

hadoop fs -cat /user/wordcount/output/part-r-00000 |more

再次执行WordCount程序请先删除输出目录

hadoop fs -rm -R /user/wordcount/output

Hadoop的MapReduce不是很好用，这里简单介绍一下。

猜你喜欢

转载自www.cnblogs.com/zhuozige/p/12583709.html

Python+Spark2.0+hadoop学习笔记——Hadoop MapReduce

【Hadoop学习笔记】——MapReduce

【hadoop学习笔记】---MapReduce

Hadoop与MapReduce学习笔记

Hadoop学习笔记--MapReduce

Hadoop学习笔记——MapReduce

从Hadoop MapReduce到Spark

Spark：超越Hadoop MapReduce

Python+Spark2.0+hadoop学习笔记——Python Spark MLlib决策树回归

Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Decision Tree MultiClassification多分类

Python+Spark2.0+hadoop学习笔记——Spark ML Pipeline机器学习流程

hadoop学习笔记（八）：MapReduce

MapReduce--Hadoop学习笔记

Hadoop mapreduce

Hadoop - MapReduce

hadoop的MapReduce

Hadoop（MapReduce）

Hadoop—MapReduce

hadoop --- MapReduce

Python+Spark2.0+hadoop学习笔记——实战之推荐引擎

【Big Data - Hadoop - MapReduce】hadoop 学习笔记：MapReduce框架详解

hadoop mapreduce 异常笔记

python MapReduce hadoop

Hadoop Python MapReduce

Hadoop，MapReduce学习步骤

hadoop探索学习 MapReduce：

hadoop学习----------mapreduce

学习Hadoop——Mapreduce 细说

学习Hadoop——MapReduce介绍

Hadoop学习之Mapreduce

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)