Lucene和Solr从数据库加载词库分析

Lucene和Solr从数据库加载词库分析
中文比较常用的分词库主要IK，ansj和messeg，下面针对IK来做分析，其他的几种分词器，都是大同小异的原理。
（一）词库介绍
不论使用什么类型的分词器，一般都少不了使用词库，而词库里面，除了主词库之外，还有扩展词库，同义词库，禁用词库等，其中扩展词库，同义词库，禁用词库是比较基础的词库，一般类型的业务开发，使用这3种词库后，基本能满足需求，特殊情况需要另外考虑。
（二）词库需求
每一个网站都需要有一个特定行业的词库，来丰富词库系统，当然你可以不用建立词库，这样的效果可能检索的时候，用户体验可能会比较查，在系统运行过程中，词库是可以动态更新的，所以要求我们的分词器，能够动态更新所有的词库，比如禁用词，同义词，扩展词等，这样做动态性比较好，但已经建好索引的文本，与目前的词库可能会存在一些误差，这种差别会在下一次重建索引时得到改变，所谓词库的动态更新，也就是在后台单独起个线程定时在内存里重新Load词库
（三）为什么需要从数据库或缓存加载词库？
在实际的开发中，搜索作为一个重要的组件，很少单独部署作为一个应用，除非是那种比较小的数据量，或者对搜索要求不是非常严格，通常在互联网或者电子商务行业，特别是电商行业，因为访问量比较大，对系统并发，负载均衡，响应请求要求比较高，所以搜索作为一个关键的应用通常需要采用集群的方式来构建一个高可用，高扩展的检索系统，在集群中，一般采用主从架构的方式，这样以来1主N从，需要有很多份词库文件，如果词库经常变化那么这种牵一发而动全身的趋势，就会变的很明显，解决办法主要有2种：
（1）在配置主从同步架构时，把，变化的词库放在Master上，然后同步的时候把词库的配置文件也同步过去。
（2）第二种就是今天主题所说，所有的词库文件都从某一个集中的地方管理，然后各个solr节点，定时从数据库，或缓存里读取并更新（在IK源码的Dictionary里进行更新）。

第一种方式的弊端在于，仅仅在solr的主从架构时，采用这种，会比较方便，如果是solrcloud的模式，这种方法就不适用了

第二种方式相对来说比较方便，整个集群只维持一份词库文件，改用较小，而且更好的办法我们可以结合本地词库+数据库的方式一起工作，这样以来当数据库出现宕机的时候，我们的词库仍能正常工作。

（四）使用流程简析
1，由于我们加入了同义词，所以需要定义一个IK的同义词工厂类IKSynonymFilterFactory继承TokenFilterFactory类并实现ResourceLoaderAware接口和Runnable接口，并重写create方法，在solr的里使用
2，我们定义一个ISSAnalyer类继承Analyzer，并重写必要方法，方便在控制台下测试。
3，定义一个IKTokenizerFactory类继承TokenizerFactory并实现ResourceLoaderAware接口，并重写inform方法和create方法，在solr里配置使用。

Lucene和Solr从数据库加载词库分析

猜你喜欢