大数据开发之倒排索引详解,拭目以待

在现如今,随着互联网技术和大数据+人工智能的飞速发展,越来越多人想要学习大数据开发,那么今天大数据培训之倒排索引的详细介绍,下面我们一起来看一下吧。

首先大数据在经济、政治、文化等方面有着深远的影响,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,大数据高端班的课程设置,标准化AI工程流程,如:加载数据集、分割数据集、选择建立模型、训练模型、测试模型和应用模型,从项目立项分析、确定分析目标到项目分析设计。


大数据是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长!大数据学习群:199427210  一起讨论进步学习

  倒排索引:

·关键字存在于一些文章或者页面中,顺序索引为这些关键字在某一文章中的数量和位置。

·倒排索引就是一关键字为单位,以关键字为主,将所有包含这些关键字的文章或者页面与该关键字关联,作为该关键字的索引。称为倒排。

·倒排索引常见思路:

·比如统计某个关键字在多个网页中存在的数量和存在的文件。

·在map中将关键字所在文件的文件名称和关键字拼接组成key,value直接使用1,使用combiner,做聚合操作,key值不变,将key_filename进行组合操作,计算出这样的组合key总数量,然后发给reduce。

·对于组合键如何发送给reduce,这里需要自定义分分区类。在分区类中不要使用默认的key_filename真个字符串hash,而是只提取key做hash.这样相同关键字就会被发送到同一个reduce。

·在reduce方,键会以key_filename方式出现,但是这个key_filename包含了来自所有map的。在reduce函数中聚合,然后将key,filename,counter拆分出来根据key输出到不同的文件中。后面可能会有相同关键字但是来自于不同网页这样的组合关键字,但是真实关键字一定会被发送到同一个reduce,所有不会存在多个reduce同时写同一个结果文件的情况。后面相同真实关键字到来后,即使与之前的相同真实关键字不连续,也会写到相同的结果文件中。

以上就是关于大数据开发倒排索引的详细介绍,希望对同学们学习大数据有所帮助。

猜你喜欢

转载自blog.csdn.net/juan189/article/details/86089916