什么是搜索引擎？

　　搜索引擎就是运行一些策略和算法，从互联网上获取网页信息，并将这些信息进行一些处理后保存，供用户检索的程序和系统。

　　搜索引擎的主要组成是通用爬虫。

　　通用爬虫：是指将网页整体从网络上爬取下来的程序。

　　搜索引擎能够获取所有网页的原因：搜索引擎将所有互联网上的网页从网络上爬取下来存储在了本地！

　　网页网址的来源主要有三种：（1）新网站的主动向搜索引擎提交网址

　　　　　　　　　　　　　（2）网站上面的链接

　　　　　　　　　　　　　（3）和DNS域名解析商合作，每当有新网站注册，搜索引擎就可以获得网址

　　搜索引擎的步骤：（1）抓取网页：抓取网页的过程中会有一个去重操作，网页中重复内容过多，搜索引擎可能不会保存

　　　　　　　　　　（2）预处理：提取出文字，中文分词，去除噪音（广告栏、导航栏、版权等文字），建立索引

　　　　　　　　　　（3）排版：设置排名，根据用户索引提供服务

　　通用爬虫的缺点：（1）只能整页整页的抓取，九成以上的数据是无用数据

　　　　　　　　　　（2）无法满足不同职业不同人员的需求

　　　　　　　　　　（3）无法爬取视频图片等数据

　　　　　　　　　　（4）无法根据释义判断，只能根据关键字索引

　　聚焦爬虫：在爬取数据时会根据需求进行筛选，尽量保证抓取相关的数据。