从VirtualBox安装到使用Hadoop单词计数详细图解 - 代码天地

从VirtualBox安装到使用Hadoop单词计数详细图解

其他 2018-12-14 11:36:17 阅读次数: 0

Ⅰ安装VirtualBox虚拟机以及Ubuntu(linux)系统

1.先下载安装包

2.先安装VirtualBox虚拟机

安装完成

3.在虚拟机上安装Ubuntu系统

安装完成

Ⅱ在linux上安装JDK

1.下载并安装JDK

2.修改配置变量

(1)通过vim进入profile

(2)修改环境变量

3.检查是否安好

Ⅲ下载、安装、配置Hadoop环境、并启动Hadoop

1.下载Hadoop

2.安装Hadoop

(1)先把安装包放到/opt/文件下

(2)然后进行解压

(3)解压后的文件

(4)进入配置文件夹

红框内的文件是要修改的配置文件

(5)修改配置

i)对hadoop-env.sh进行修改

ii)对core-site.xml进行修改

iii)对hdfs-site.xml进行修改

iv)对mapred-site.xml进行修改

v)对profile进行修改

(6)查看Hadoop是否配好

(7)对namenode进行format处理

(8)通过start-all.sh启动hadoop

(9)通过jps命令查看hadoop是否启动成功

Ⅳ运行wordcount示例

要求：WordCount单词计算

计算文件中出现每个单词的频数

输入结果按照字母顺序进行排序

例如：

输入：

hello world bye world

hello hadoop bye hadoop

bye hadoop hello hadoop

输出：

bye 3

hello 3

hadoop 4

world 2

map、reduce的理论过程：

准备：wordcount.java文件

查看代码内容：

正式开始

(1)首先查看hadoop是否运行

(2) vim WordCount.java编译程序，这里我们使用上面准备好的代码

(3) 对WordCount.java进行编译，因为导入一些hadoop的架包，所以要通过classpath对命令行进行加入

javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/l ib/commons-cli-1.2.jar -d word_count_class/ WordCount.java

(4)进入word_count_class文件夹并观察内容

(5)把当前目录下所有class文件打包成wordcount.jar：jar -cvf wordcount.jar *.class

(6)再次查看当前文件，可以观测到多了一个wordcount.jar文件

(7)返回到word_count文件夹下,进入到input文件夹,写入file1和file2

编辑file1

编辑file2

(8)返回word_count文件夹

把file1和file2都放在input_wordcount 文件夹下：hadoop fs -put input/* input_wordcount/

建立之前如果没有input_wordcount文件夹需要先创建一个：hadoop fs -mkdir input_wordcount

创建后再提交：hadoop fs -put input/* input_wordcount/

(9)用hadoop fs -ls命令查看放到哪了，观察到文件放在/user/root/input_wordcount

(10)查看是否是file1文件

hadoop fs -cat input_wordcount/file1

(11)运行hadoop的命令：hadoop jar word_count_class/wordcount.jar WordCount input_wordcount output_wordcount

知识点：先map再reduce，简单来说，只有map达到100%之后才能进行reduce

(12)查看结果：hadoop fs -ls output_wordcount，运行结果在红框路径内

(13)查到运行结果：hadoop fs -cat output_wordcount/part-r-00000，其结果是按照字典的顺序进行排序的

参考文献：

学习视频链接：https://www.imooc.com/learn/391

PS：其实这是分布式计算的作业，感谢孙老师的教导

猜你喜欢

转载自blog.csdn.net/qq_38575545/article/details/84899311

从VirtualBox安装到使用Hadoop单词计数详细图解

最新GitHub新手使用教程(Linux/Ubuntu Git从安装到使用)——详细图解

最新GitHub新手使用教程(Windows Git从安装到使用)——详细图解

Tomcat从认识安装到详细使用

Hadoop之单词计数

VirtualBox使用教程图解

hadoop集群-单词计数wordcount

hadoop运行单词计数实例

supervisor 从安装到使用

GitHub(从安装到使用)

webpack从安装到使用

Sass 安装到使用

OCLint从安装到使用

详细图解mongoDB下载，安装，配置与使用

详细图解mongodb下载、安装、配置与使用

VirtualBox虚拟机安装Centos7详细教程图解

VirtualBox虚拟机安装Centos服务器详细教程图解

Hadoop应用程序_WordCount单词计数

Hadoop之MapReduce过程，单词计数WordCount

VirtualBox centos 7 安装hadoop

使用MapReduce实现单词计数

Tomcat的使用（从安装到使用）

MySQL安装详细图解

安装linux详细图解

[转载]supervisor从安装到使用

Gym安装到使用入门

vuex从安装到使用的教程

axios从安装到使用的教程

Elasticsearch 文档从安装到使用

Redis总结(从安装到使用)

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)