sensei indexing via hadoop

构建索引一般是比较费时费力的过程，如果能通过hadoop分布式构建索引就方便了很多。
基于sensei的索引都是分shard的，通过sensei提供的工具类，可以在hadoop集群中分shard构建索引，下面简单介绍一下，因为没有文档，只是简单过了一下source code:

1 定义properties文件，定义配置选项
PropertiesLoader可以生成配置文件类Configuration

2 自定义的job类要继承MapReuceJob, 调用MapReuceJob.createJob()方法可以得到JobConf对象，JobConf对象是hadoop可运行的任务。

MapReuceJob.createJob方法比较重要，它会读取第一步生成的Configuration类，进行一系列初始化操作，并生成可运行的JobConf对象。

createJob方法最重要的工作就是生成shards(分区)，一般来说，shards的数量是配置文件中配置好的，但是为了充分利用hadoop集群的性能，不光要考虑到sensei的node数量，也要考虑到hadoop集群中reducer的理论最大数量。Shard类是一个比较重要的类，但是对使用者透明。

关于hadoop任务的任何配置信息的处理过程都可以在MapReuceJob.createJob方法中找到。

3 SenseiMapper类，它在初始化的时候要构建这几样东西：
Shard[], 从JobConf中读取已经在第二步构建好的shards属性，重新构建。
ShardingStrategy 分区策略，用户要自己实现这个接口，mapper会使用这个进行分区
MapInputConverter 预处理mapper的输入，用户也要自己实现这个接口，把文本内容返回成JSONObejct格式的内容。
DefaultJsonSchemaInterpreter, 这个类会读取sensei的schema文件，这样在知道如何根据schema中的定义对jsonObject进行索引
Analyzer分词器，我们要使用自己的中文分词器（！？）

mapper的输出格式是Shard和IntermediateFrom, 比较重要的数据结构。不同的分区的document此时已经按Shard为key分发到不同的reducer上面，这样reducer就可以直接进行写文件了。（这个思路可以用于以后我们自己写分布式系统的时候）

4 SenseiCombiner
5 SenseiReducer, 使用IndexWriter写索引的过程了，比较简单。

先这样，再补充

sensei indexing via hadoop

猜你喜欢