<Search Engines - Information Retrieval In Practice> 读后感 - 概述

由于工作需要,同时购买了<Search Engines - Information Retrieval In Practice>的中英文两个版本,我看的是英文版,中文版由另外一位同事在看.

<Search Engines - Information Retrieval In Practice> 中文翻译 《搜索引擎-信息检索实践》
作者: W.Bruce Croft/Donald Metzler/Trevor Strohman

在阅读之前对书进行了大概浏览,觉得该书的内容很全,涉及到了IR的每个方面,因此,对于IR的初学者,和想对该领域有系统掌握的读者是很好的教程。

该书包括以下章节和内容:
(其中第一、二章是综述,其他章节是对一二章内容的详细阐述)

一、 Search Engines and Information Retrieval 介绍了信息检索(IR)的概括以及IR中的主要问题,以及搜索引擎的设计和实现过程中要考虑的问题
1. 总结了IR中的3个Big Issues:
  a. Relevance 相关性
     (1) Topic relevance 主题相关性:
          结果和用户搜索主题的match程度
     (2) User relevance 用户相关性 :
          有时候虽然主题相关,但是有的结果并不是用户所想要的,例如user已经看过或者该文章已经历史很久了
   搜索引擎的Retrieval models以及Ranking algorithm主要是为了解决相关性的问题.

  b. Evaluation 评估
     搜索结果的质量评价取决于结果是否match 用户的期望
     1960s的Cleverdon 提出的评估方法在现在搜索引擎评估中依然流行,该评估办法包括以下指标:
     (1) Precision 精确度
        搜索结果中的文档相关性程度
     (2) Recall 召回率
        相关的结果被找出来的比率
     Retrieve Model和Search engines的评估是个热门的话题,目前主要是靠分析log和clickthrough数据
    
  c. Information user needs 以用户想要的信息为中心
   由用户来评价搜索结果的好坏,通过feedback的形式与usr进行交换.

2.搜索引擎设计与实现中的要考虑的几个问题
  (1) Performance 性能
    需要高效的爬取、处理、索引、检索module
  (2) Incorporating new data 更新数据
    要能够覆盖和及时更新网络上的新内容
  (3) Scalability 可扩展性
    随着数据和用户的增加,要支持扩展
  (4) Adaptability 适应能力
    要能够适应不同的应用程序
  (5) Specific problems 特殊问题处理
    
二、 Architecture of a Search Engine 搜索引擎架构 本章阐述了如何在架构一个搜索引擎,以及架构的搜索引擎的组成模块.
1. 架构搜索引擎的两个主要目标有:
    Effectiveness(quality):高质量:取都最相关的结果
    Efficiency(speed): 高效:能够迅速进行工作
2. 组成模块:
    (1) Text Acquisition 数据获取
      a.Crawler 爬虫
      b.Feeds: 实时种子,如 RSS
      c.Conversion 转换,Html/xml可以直接读取文本,但是pdf/excel/word之类的需要转换成text文本才能进行后续处理
      d.Document data store 文档存储
    (2) Text Transformation 数据转换
      a.Parser 文本解析,分词
      b.Stopping 停用词去除
      c.Stemming 单词的不同时态、单复数处理
      d.Link extraction and analysis 链接提取
      e.Information extraction  信息提取
      f.Classifier 信息归类
    (3) Index Creation 建立索引
      a.Document statistics 文档统计
      b.Weighting 计算权重
      c.Inversion 倒排
      d.Index distribution 分布式索引
    (4) User Interaction 用户交互
      a.Query input 输入
      b.Query transformation 转换
      c.Results output 输出结果
    (5) Ranking 排序
      a.Scoring - query processing 根据排序算法计算文档的score
      b.Performance optimization 性能优化:排序算法的性能优化
      c.Distribution
    (6) Evaluation 评估
      a.Logging
      b.Ranking analysis
      c.Performance analysis
    另外一个划分方法可以将搜索引擎分为两大块
    Indexing process & Query process
    Indexing process 包括 Text Acquisition、Text Transformation和Index Creation
    Query process包括 User Interaction、Evaluation和Ranking

三、 Crawler and Feeds 网络爬虫
四、 Processing Text 文本处理
五、 Ranking and Indexes 排序和索引
六、 Queries and Interfaces
七、 Retrieval Model 检索模型
八、 Evaluating Search Engines评估搜索引擎
九、 Classification and Clustering 归类
十、 Social Search
十一、 Beyond Bag of Words
 

猜你喜欢

转载自softwarexiaozhu.iteye.com/blog/808794