【程序员的数学基础课】之35 | 文本检索:如何让计算机处理自然语言?

文章地址:

本文总结:

1) 在文章34中主要介绍了向量空间模型

       向量空间模型核心就是:

       向量可以看做空间中的点,可以通过计算点的距离评判向量的相似度(相关性)

       向量都是有箭头方向的,所以可以通过计算向量的家教余弦值来评判向量的相似度

2) 文章35主要介绍信息检索领域中向量空间的应用

       通过布尔模型和向量空间模型都可以用于信息检索领域的“相关性”判断

3) 向量空间模型应用于信息检索

       a)应用词袋模型建立词表,以便建立各文档对应的特征向量

       b)填充文档的特涨向量各维度的值可以采用:1填充;词频填充;tf-idf填充;

       c)对查询的各关键词,通过词袋模型建立查询条件对应的特征向量

       d)各文档对应的特征向量与查询条件对应的特征向量的相似度,从而选出相关度最高的一些文档

4)倒排索引和向量空间模型相结合。倒排索引可以快速找到包含查询词的候选文档,这样就避免了不必要的向量计算

猜你喜欢

转载自blog.csdn.net/iNiBuBian/article/details/88241395