Hadoop7days-4 MR实现倒排索引 - 代码天地

Hadoop7days-4 MR实现倒排索引

其他 2018-05-20 12:11:14 阅读次数: 2

实现倒排索引值得是：将位于不同文件里面的单词，统计出其在不同文件中出现的次数，结果应为

“hello”，"a.txt->3,b.txt->2,c.txt->2"

的形式。要达成这一目标，需要设置多个mapper和reducer类。可以使用倒退的方法，来确定各个mapper和reducer要实现的功能，其步骤如下：

mapper 的输出是
context.write("hell0->a.txt","1");
context.write("hell0->a.txt","1");
context.write("hell0->a.txt","1");

shuffle后变为：
<"hello a.txt" , {1,1,1}>
------------------------------reducer
reducer的输入：
<"hello a.txt" , {1,1,1}>

reducer的输出应该是：
"hello","a.txt->3"
"hello","b.txt->2"
"hello","c.txt->2"
------------------------------maper的输出应该是：
mapper的输入应该是：
"hello","a.txt->3"
"hello","b.txt->2"
"hello","c.txt->2"

context.write("hello","a.txt->3"}
context.write("hello","b.txt->2"}
context.write("hello","c.txt->2"}
shuffle之后变为:

<"hello",{"a.txt->3","b.txt->2","c.txt->2">
-----------------------------最终reducer的输出
reducer的输入应该是
context.write("hello",{"a.txt->3","b.txt->2","c.txt->2"}

reducer的输出

context.write("hello","a.txt->3 b.txt->2 c.txt->2");

下面开始我们的设计：

第一个map应该讲文件变为 "word->name,"1"的形式

第一个reducer应该将 “word->name”,"1"变为 “word”,"name,1"的形式，我们加一个combiner，让combiner完成这个功能

reducer:

猜你喜欢

转载自blog.csdn.net/qq_22772465/article/details/80106891

Hadoop7days-4 MR实现倒排索引

Hadoop实战之倒排索引的MR实现

Hadoop7days-4 combiner

Hadoop实战-MR倒排索引（三）

倒排索引 mr实现

hadoop实现简单的倒排索引

Hadoop基础---倒排索引实现

Hadoop_23_MapReduce倒排索引实现

hadoop M/R 实现倒排索引

Hadoop学习：MapReduce实现倒排索引

你有想过，如何用Hadoop实现【倒排索引】？

基于Hadoop的带词频统计的文档倒排索引算法实现

Lucene 4.X 倒排索引原理与实现: (2) 倒排表的格式设计

ElasticSearch（7）---倒排索引

hadoop学习笔记（倒排索引）

大数据入门（12）mr倒排索引.

Lucene 4.X 倒排索引原理与实现: (1) 词典的设计

学习Hadoop第十七课（倒排索引）

Hadoop--倒排索引过程详解

Hadoop--MapReduce5--倒排索引

spark实现倒排索引

倒排索引的简单实现

倒排索引的实现

MapReduce实现倒排索引

python 实现倒排索引

Hadoop 7days -hadoop序列化机制及使用maven开发 MR统计上下行流量的例子开发

Hadoop7days -4 Partitioner

Lucene 4.X 倒排索引原理与实现: (3) Term Dictionary和Index文件 (FST详细解析)

倒排索引原理和实现

倒排索引的mapreduce的简单实现

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)