关于Lucene分词的一些总结 - 代码天地

关于Lucene分词的一些总结

企业开发 2018-05-08 23:00:00 阅读次数: 1

Lucene3.6与7.2版在声明变量上本存比较大差异

这两个版本可以概括Lucene前期版本和后期版本的大概变化

QueryParser qp = new QueryParser( f, a);

query = qp.parse(queryStr);

QueryParser已经包含了其他搜索器的实现，只要在搜索结果加上相应的搜索方式就可以达到用同样搜索器的效果

在搜索时创建索引和搜索时所使用的分词器会影响搜索的结果

中文分词

如果创建索引时，分词器为一元分词器，则搜索时可以按最细分词颗粒度来搜索。

例如：

“百度一下”

如果用一元分词器分词的结果是：

百，度，一，下

此时搜索可以按单个字来搜索。

但如果用的是只能中文分词器，则会把搜索内容以词组的方式作为索引。此时单个字搜索是没有结果。因为创建索引时，分词颗粒度不是最细，分词是以词组的方式才能被搜索。

例如：

用智能中文分词器分词的结果是：

百度，一下

此时搜索单个字时不能搜索出结果。

猜你喜欢

转载自a1b19pm.iteye.com/blog/2409995

关于Lucene分词的一些总结

关于分词的一些思考

Lucene(一)-Lucene的一些词汇

关于一些中文分词器

关于Storm的一些总结

关于版本、分支的一些总结

关于Java String的一些总结

关于vsnprintf的一些总结

关于swift的一些属性总结

关于通信的一些总结

关于mysql索引的一些总结

关于文件的一些总结

关于mysql优化一些总结

关于栈结构的一些总结

关于Calendar的一些用法总结

关于Https的一些总结

关于前端测试的一些总结

关于JavaScript性能的一些总结

关于ClearScript一些调试总结

关于Mybatis的一些总结

关于git的一些命令总结

关于pymysql的一些总结

关于GIL的一些理解总结

关于hibernate的一些总结

关于Calendar用法的一些总结

关于简单回文的一些总结、

个人关于hashmap的一些总结

一些关于SQL优化的总结

关于机器学习的一些总结

关于SharedPreferences一些总结

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)