Hadoop实战——MapReduce对英文单词文本进行统计和排序（超详细教学，算法分析） - 代码天地

Hadoop实战——MapReduce对英文单词文本进行统计和排序（超详细教学，算法分析）

其他 2021-11-22 16:14:09 阅读次数: 0

源码（包含可执行jar包）下载链接

链接：https://pan.baidu.com/s/1fYr1_LvFXa31XTyg1y1m2g
提取码：3r3q

B站视频操作过程

Hadoop实战——对单词文本进行统计和排序_哔哩哔哩_bilibili

目录

一、前提准备工作

启动hadoop集群

windows可以访问

二、整体流程

三、核心代码讲解

四、生成jar包上传

五、运行程序

一、前提准备工作

启动hadoop集群

必须已经成功搭建好了hadoop集群，打开主节点和子节点全部虚拟机，启动hadoop

windows可以访问

关闭主节点虚拟机的防火墙，在windows的hosts文件添加配置信息

二、整体流程

整体流程如下

程序内部执行过程如下

三、核心代码讲解

Mapper类

将单词文本进行切割，切割成一个个的单词，写入到上下文中

（1）按行读取，通过split函数进行切割，将切割出来的一个个单词放到数组ars中

（2）遍历数组ars，将存在的单词数据存储到word中，然后将word写入到context上下文（使Redcue程序能访问到数据）

Reduce类（部分代码展示）

（1）将每个单词统计次数结果进行求和合并，写入到map集合里

（2）调用Utils工具类的sortValue方法对map集合进行排序

（3）遍历排序好的map集合，依次写入到context上下文中

Utils类（对map进行排序）

（1）继承Comparable类，复写compare方法

（2）通过map<k,v>集合的value（也就是单词次数）进行排序

（3）将排序好的map返回

新建一个测试类测试一下，可以看到排序OK

四、生成jar包上传

先点击右边的 clean 清理一下，然后点击 package 生成打包jar包

运行完毕，会在左边生成一个 target 的文件夹，展开可以看到生成jar包程序

选中jar包，右键选择复制，粘贴到桌面

打开 winscp 工具，连接主节点虚拟机，将刚刚粘贴在桌面的jar包拷贝到虚拟机里（路径自己选，知道在哪就行）

打开虚拟机，跳转到刚刚复制的路径目录下，可以看到已经拷贝进来了

五、运行程序

（1）创建单词文本并上传

在下面可以看到有一个words.txt文本，这是我之前创好的

more指令查看文本，可以看到文本里有很多的英文单词

（2）上传到HDFS文件系统

首先创建一个文件夹存放统计前的单词文本（words.txt）

将单词文本（words.txt）上传到刚刚创建的文件夹下

执行jar包程序，hadoop jar jar包名称包名称+主类名输入路径输出路径

包名称+主类名如下

回车执行命令，等待提示运行完毕，运行结束后

打开HDFS文件系统的output目录下，就能看到输出结果，打开文件点击Download下载

以文本方式打开，可以看到已经对单词进行了统计并且对其进行降序操作

- 本次文章分享就到这，有什么疑问或有更好的建议可在评论区留言，也可以私信我
- 感谢阅读~

猜你喜欢

转载自blog.csdn.net/weixin_47971206/article/details/121252094

Hadoop实战——MapReduce对英文单词文本进行统计和排序（超详细教学，算法分析）

在centos6.5上hadoop mapreduce 统计英文单词

英文单词个数统计及排序

统计文本中英文字母及英文单词的次数并排序

英文单词排序

文本中英文单词的统计个数

英文单词个数的统计

统计英文单词次数

英文单词词频统计

飘英文单词统计

【PTA】英文单词排序

文本（数字和很长的英文单词）到头强制换行

【hadoop】1、MapReduce进行日志分析，并排序统计结果

哈利波特英文单词统计频率

使用Python进行英文单词分割

C语言英文单词排序

英文单词按字母顺序排序

Spark英文单词分析案例

(四)利用Hadoop MapReduce 实现文本单词频率统计

【Python】1行Python代码统计文本中每个英文单词出现次数（python词频统计） | 附完整代码

Java实现：四六级真题批量PDF文件英文单词词频分析、排序

实现英文单词按词典序排列的基数排序算法

英文单词、句子

反转英文单词

英文单词

python英文单词

英文单词总结

编程英文单词

英文单词小记

冒泡排序 PTA 7-5 英文单词排序

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)