lucene的企业级搜索引擎

lucene的企业级搜索引擎
企业级:持久化数据
大量数据,很多人同时访问数据,大量用户操作界面,
通常需要与散步在企业周围的其他应用进行集成。

企业级分为两类:
面向企业用户HRM ERM
面向消费者

什么是lucene:
是一个高效的,基于java全文搜索库。
数据类型分为两大类:
1 结构化数据 固定格式的数据,sql 元数据
2 非结构化数据 grep ps aux|grep xxx
3 半结构化 html xml



顺序扫描法
非结构化数据中提取的然后重新组织的信息 索引
软件包分析
org.apache.lucene.analysis 分词器
org.apache.lucene.doument 封装索引所需要的类 Doument ,field
org.apache.lucene.index 协助创建索引的类,以及对象索引进行更新
org.apache.lucene.search 对建立好的索引搜索所需要的类

Document,field,indexWriter directory FSD RAM

如果现从数据库查询出索引文档,再取得数据,和数据库一样了。
如果数据发生变化了,如何更新文档呢,
1.判断文档存在
merge 归并算法,个别文件和原来有区分文件合并操作。
可以使用定时任务去更新。


solr lucene
1.兼容性好
2.实现了分块索引建立小文件,提升索引速度
3.易于学习
4.易于扩展
4.自带比较强力的模糊查询

缺点:
1.对磁盘占用太大,频繁操作磁盘 1024T
2.不支持API
3.不支持集群 继承Directory solr Nutch+Hadoop indexServer nutch集成

总结:
java 开源搜索引擎里面 lucene

项目中:
solr-solrj-4.10.4-sources.jar,
保存只有在定时任务里使用,保存的时候取DB数据,再保存到solr
solrServer.addBean(Object);
solrServer.commit();
solrServer.deleteById(id);















猜你喜欢

转载自572327713.iteye.com/blog/2347148
今日推荐