文章地址:
本文总结:
1) 在文章34中主要介绍了向量空间模型
向量空间模型核心就是:
向量可以看做空间中的点,可以通过计算点的距离评判向量的相似度(相关性)
向量都是有箭头方向的,所以可以通过计算向量的家教余弦值来评判向量的相似度
2) 文章35主要介绍信息检索领域中向量空间的应用
通过布尔模型和向量空间模型都可以用于信息检索领域的“相关性”判断
3) 向量空间模型应用于信息检索
a)应用词袋模型建立词表,以便建立各文档对应的特征向量
b)填充文档的特涨向量各维度的值可以采用:1填充;词频填充;tf-idf填充;
c)对查询的各关键词,通过词袋模型建立查询条件对应的特征向量
d)各文档对应的特征向量与查询条件对应的特征向量的相似度,从而选出相关度最高的一些文档
4)倒排索引和向量空间模型相结合。倒排索引可以快速找到包含查询词的候选文档,这样就避免了不必要的向量计算