Google搜索过程解析

Google搜索是目前全球的最大的搜索引擎，市场占比达到91%，每天处理超过35亿次搜索。相对国内用户，海外用户对谷歌搜索的依赖更为严重，84%的受访者每天使用谷歌超过3次。可以看到对于海外产品来说，Google搜索是一个巨大的流量池，利用好Google搜索能够为产品增长带来巨大的收益。

概括

在Google搜索中主要经历三个基本步骤来展示网页的搜索结果

暂时无法在飞书文档外展示此内容

抓取： 找出网络上存在哪些网页，谷歌会不停的搜索网上的新网页并添加已知网页列表中

编入索引： 处理抓取后的网页，分析网站内容，将这些信息存储在Google索引中

呈现： 输入查询后，先分析输入词，再根据一系列算法将最适合的内容提供给用户

抓取

抓取指的是GoogleBot访问要添加到Google索引的新网址和更新后的网页的过程。我们使用大量计算机提取（或“抓取”）网络上的数十亿个网页，执行抓取任务的程序叫做 Googlebot。

抓取过程可以通过以下图来表示

例如现在Google已经收录了Tiktok的相关网址，TikTok中的一些页面存在内链

那么在抓取Tiktok内容的时候，Google能够跟踪网页上的这些链接，接着去抓取链接相关的内容，再抓取内容过程中会查找当前页面的链接并且这些链接加入到即将抓取的页面列表中，以此类推，直到把大部分的网页都录入到Google索引中。

初始的页面抓取除了通过其他网站链接抓取，也可以通过提交站点地图的方式告诉搜索引擎抓取范围，内容更新时，主动让搜索引擎重新抓取。

Google抓取网址内容以后会尝试了解网站的内容，例如分析网页文字和非文字内容、网页结构。所以Google抓取内容后能够非常好的了解网站内容，那么在搜索中就能够推荐给更合适的人选。

改善抓取质量

在这个环境可以采取的措施来改善抓取质量

提交站点地图：让搜索引擎了解抓取范围

使用robots.txt：确定哪些内容是可以搜索的，并且可以确定抓取内容的优先级

保证页面内容可访问：在抓取中google是需要分析内容的，那被抓取的网站内容就不能够有登录态，或者页面报错无法访问

提供简单的网址路径

避免网站内容重复：在爬取页面内容时，Google给网站的流量是有限的，所以需要避免重复的网站浪费Google爬取的流量

使用适合的爬取引擎：爬取引擎分为桌面端引擎、移动端引擎。根据页面内容提供给不同搜索引擎，能够提升用户体验

提升网站性能：提升Google对网站的抓取效率，能够同时抓取更多的网站

编入索引

用户在输入搜索词以后，google并不是去查找网页地址，而是通过搜索词去匹配内容对应的相关内容，然后将这些内容展示出来。

所以在抓取到网页内容以后，会分析网站内容，将内容的关键内容、网址、图片信息进行整理归纳到一条记录。记录就像就像图书后部的索引一样 – 编入索引的每个网页上出现的每个字词都对应着一个条目。在将某个网页编入索引时，系统会将该网页分别添加到其包含的所有字词的对应条目中

通过对网站进行归纳，形成巨大的网络图不仅可以做到关键字匹配，还可以做到相关内容匹配

改善编入索引的效果

可以通过以下方式改善这个步骤的效率

使用禁止Google将网站编入索引

使用结构化数据

页面展现

通过离线方式将网站内容进行索引，剩下的就是就是在用户搜索的时候，在索引中查找并通过一系列算法进行排序，为用户找出最相关、最实用的算法。

Google 搜索算法会考虑很多因素，包括查询的字词、网页的相关性和可用性、来源的专业度，以及用户所在的位置和采用的设置。目前已知的有以下几种：

熊猫算法：打击重复内容、关键词堆砌、短空内容、用户/程序生成的低质量页面

企鹅算法： 打击使用链接农场、站群、垃圾链接堆砌、付费链接等，获取搜索引擎权重的网站

蜂鸟算法： 页面内容进行分析，即使标题中没有提及的关键词，只要内容相关也可以参与对应的关键词排名

PageRank: 此算法已经废弃，但算法思路仍然有效

飞鸽 算法&负鼠算法: 主要针对Local SEO。也可以称之为地域词汇。在不同的地域即使搜索相同的词汇，也会显示不一样的结果

移动算法&速度更新: 针对移动端体验优化的算法

RankBrain ：使用机器学习来确定与搜索引擎查询最相关的结果

这里着重介绍两种算法PageRank和RankBrain，其他打击算法或者优化算法就不在这里阐述

PageRank

PageRank 是一个数学公式，它通过查看连接到它的其他页面的数量和质量来判断“页面的价值”，其目的是确定给定的网页在网络中的相对重要性。

原始论文中PageRank的公式解释如下

我们假设页面 A 有页面 T1…Tn 指向它(即引用)。参数 d 是一个阻尼系数，可以设置在 0 到 1 之间。我们通常将 d 设置为 0.85。此外，C(A) 定义为离开页面 A 的链接数。页面 A 的 PageRank 如下所示：

PR (A) = (1‑d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

请注意，PageRank 来自网页上的概率分布，因此所有网页的 PageRank 之和都将为 1

简单来说Google在计算网页的PageRank会考虑三个因素:

入占链接页面的数量和质量

每个链接页面上的出站链接数

每个链接页面的PageRank

假设页面 C 有两个链接：一个来自页面 A，一个来自页面 B。页面 A 比页面 B 强，并且向外链接也更少。将此信息输入到 PageRank 算法中，你将获得页面 C 的 PageRank

PageRank公式中有一个阻尼系数，实际模拟用户在浏览网站持续点击链接的概率，通常来说每次点击这个概率都会降低。那么后一个页面的PageRank就需要在前一个页面结果中乘上阻尼系数

提升页面PageRank

需要关注以下三个方面：

内部链接：查看本网站被引用最多的地址，将重要内容放置在其中；把本网站相关的页面链接在一起，不要形成孤儿页面

外部链接：外部链接引用也能够提升网站本身的权重

反向链接：让权威度高的网站链接到我们的网站

RankBrain

RankBrain是谷歌在2015年10月26日上线的一款人工智能算法系统，此套算法是谷歌核心算法的一个组成部分，它使用机器学习（机器从数据输入中自学的能力）来确定与搜索引擎查询最相关的结果。RankBrain通过如搜索者的位置、个性化和查询的词来确定搜索者的真实意图。通过识别这种真实意图，Google 可以提供更相关的结果。

RankBrain主要有两个工作：

理解搜索词

衡量结果满意度

RankRrain如何理解搜索词

在每天的搜索中，大概存在15%的搜索词是谷歌从未见过的。在该算法之前，Google会直接搜索相关匹配的关键词，但由于这些关键字是全新的，google无法知道用户需要什么内容

假设您搜索了“the grey console developed by Sony”。谷歌将寻找包含“grey”、“console”、“developed”和“Sony”等术语的页面

可以看到Google在以前的时候会尝试把输入词和页面中的词语进行匹配。

如今RankBrain会尝试搞清楚用户的搜索意图，当用户输入“the grey console developed by Sony”的时候，RankBrain会获取到和这个概念类似的结果，不仅限于关键字的匹配。简而言之，RankBrain能够将搜索的关键字转换为概念，找到覆盖该概念的页面

衡量结果满意度

除了分析关键字以外，RankBrain能够根据用户行为调整网站排名。如果很多人都喜欢该网站，那么就会提高该页面的排名，如果很多人不喜欢这个页面那么就会调整页面的排名

例如谷歌搜索gogokid有以下内容，有1、2、3两种结果；

当用户点击进入第一第二的网站，发现内容不是我们所期望的内容，退回到搜索结果页面，然后点击第三的网站，发现内容非常match，花费了较长的时间学习查看。那Google就可以通过这一系列行为提升网站3的排名

提升RankBrain

提升该指标需要注意以下内容：

优化标题和CTR的描述信息：自然点击率是RankBrain的重要指标

优化关键字：能够让不同的搜索词仍然能够联想到网站页面

优化网站跳出率和网站停留时间：网站停留时间是谷歌搜索者在单击您的结果后在您的网站上花费的时间，这个指标对于算法来说相当重要，停留时长最长越代表当前内容满足用户的期望

提升品牌知名度：在搜索结果中展示知名度更高的产品，用户无疑会选择知名度更高的网站

SERP

SERP指的是搜索引擎在用户查询后得出的结果，主要由付费广告和自然排名结果组成。忽略付费广告，自然搜索结果通常由标题、链接描述等构成

通过设置页面中的title、description、url就能告诉谷歌在搜索界面需要展示的内容。对于用户来说这几个内容至关重要，能够吸引用户的大部分注意力。

目前展示格式有10多种，并且还在不断增加，例如：精选摘要、知识卡片、知识图谱、精选图片、站点链接等等

提升SERP

结构化数据：能够让Google更理解如何展示你的网站

语义化标签：在富媒体的搜索中能够展示相关内容

匹配内容的展现形式：根据内容调整展现形式，能够更吸引用户的注意力