全文搜索的一些理论总结2 - 代码天地

全文搜索的一些理论总结2

其他 2018-06-01 21:34:16 阅读次数: 0

全文搜索的基础是从一串字符串中查询出一串字符。本文总结一下实现方法：

1.通过正则实现

>>> p = re.compile("abc|fuck")
>>> p.findall("abcfuckselpabcdslfabceflabc")
['abc', 'fuck', 'abc', 'abc', 'abc']

2. 通过Trie树实现

Trie树，又称字典树，单词查找树或者前缀树，是一种用于快速检索的多叉树结构。

Trie一词来自retrie ve，发音为/tri:/ “tree”，也有人读为/traɪ/ “try”。

Trie树可以利用字符串的公共前缀来节约存储空间。如下图所示，该trie树用10个节点保存了6个字符串tea，ten，to，in，inn，int：

在该trie树中，字符串in，inn和int的公共前缀是“in”，因此可以只存储一份“in”以节省空间。当然，如果系统中存在大量字符串且这些字符串基本没有公共前缀，则相应的trie树将非常消耗内存，这也是trie树的一个缺点。

Trie树的基本性质可以归纳为：

（1）根节点不包含字符，除根节点意外每个节点只包含一个字符。

（2）从根节点到某一个节点，路径上经过的字符连接起来，为该节点对应的字符串。

（3）每个节点的所有子节点包含的字符串不相同。

参考：

http://dongxicheng.org/structure/trietree/

http://kingj.iteye.com/blog/1463990

猜你喜欢

转载自san-yun.iteye.com/blog/1563985

全文搜索的一些理论总结2

全文搜索的一些理论总结

一些搜索总结

SQL Server 2008 全文搜索的一些知识

一些总结2

一些搜索技巧总结

近期一些学习总结2

关于二叉搜索树的一些总结

关于ETL、ODS的一些搜索结果总结与认识

一些总结

关于Struts2的namespace的一些总结2

ElasticSearch全文搜索总结

控制理论的一些资料推荐

生活中的一些常用理论

关于Retinex理论的一些理解

struts2的namespace的一些总结

SWGGER2的一些经验总结

YYHD-工作中一些总结(2)

关于Vue.js的一些总结(2)

对于http/http2的一些总结

C语言的一些误用和知识总结（2）

外企外包的一些的总结(前端开发-2)

对近期JAVA学习的一些总结2

YII2使用的一些总结

YII2前端工具使用的一些总结

<<THE C++ PROGRAMMING LANGUAGE>>的一些总结(2)

d2l的一些理论知识的整理【1】

Pytorch的一些总结

databingding的一些总结

MyBatis一些总结

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)