Google 搜索的工作原理和方式
Google 会从很多不同的来源获取信息,包括:
网页;
用户提交的内容,例如“Google 我的商家”和地图用户提交的内容;
图书扫描;
互联网上的公共数据库;
以及许多其他来源。
但是,此页面内容将重点介绍 Google 如何通过网页获取信息。
简单概括:谷歌搜索工作原理
Google 按照以下三个基本步骤来生成基于网页的结果:
抓取
第一步是找出网络上存在哪些网页。由于没有所有网页的中央注册表,因此 Google 必须不断搜索新网页并将其添加到已知网页列表中。此发现过程称为“抓取”。
由于 Google 之前已经抓取某些网页,因此这些网页是 Google 已知的网页。当跟踪已知网页上指向新网页的链接时,Google 会发现其他网页。当网站所有者以列表形式提交一系列网页(站点地图)供 Google 抓取时,Google 也会发现其他网页。如果您使用受管的网站托管服务,如 Wix 或 Blogger,则这些服务可能会告知 Google 抓取您更新后的网页或添加的新网页。
要改善对您网站的抓取效果,请注意以下事项:
[info]
- 如果您对单个网页进行更改,您可以向 Google 提交具体网址。
- 将您的网页链接到 Google 已知的其他网页。但是,请务必注意,Google 不会跟踪广告中的链接、其他网站中由您付费的链接、评论中的链接或其他未遵循 Google 网站站长指南的链接。
- 如果您想让 Google 只抓取 1 个网页,请将此网页设为您的首页。 在 Google 看来,您的首页就是您网站上最重要的网页。为促成完整网站抓取,请确保您的首页(以及所有网页)都包含一个良好的网站导航系统,能链接到您网站上所有重要版块和网页。这会有助于用户(和 Google)在您的网站上找到所需内容。
[/info]
[success]Google 不会通过收取费用来提高网站抓取频率或网站排名。任何关于 Google 会通过收取费用来提高网站抓取频率的消息均是自子虚乌有。[/success]
编入索引
发现网页后,Google 会尝试了解该网页的内容。此过程称为“编入索引”。Google 会分析该网页的内容、网页上嵌入的目录图片和视频文件,或通过其他方式尝试了解网页。这些信息存储在 Google 索引中,而Google 索引是一个存储在很多很多计算机中的巨大的数据库。
要改善将您的网页编入索引的效果,请注意以下事项:
- 制作简短且有意义的网页标题。
- 使用传达网页主题的网页标题。
- 使用文字(而非图片)传达内容。(尽管 Google 能够理解一些图片和视频,但相比图片和视频,文字更易于理解。如果需要使用视频和图片,您至少应酌情使用替代文本和其他属性加以注释。)
呈现搜索结果(展示排名结果)
当用户输入查询时,Google 会根据许多因素尝试从其索引中找到最相关的答案。Google 会努力确定最优质的答案,并会考虑其他因素(例如,考虑用户所在位置、使用的语言及设备(桌面设备或手机)等因素),以便提供最佳用户体验和最恰当的答案。例如,在用户搜索“自行车维修店”后,Google 向巴黎用户显示的答案与向香港用户显示的答案有所不同。Google 不会通过收取费用来提高网页排名,网页排名是以编程方式完成的。
要改善您的网页呈现和排名效果,请注意以下事项:
[info]
- 提高网页加载速度,并使其适合移动设备访问。
- 在网页上发布实用的内容并保持更新。
- 遵循 Google 网站站长指南,这有助于确保提供良好的用户体验。
- 详细了解搜索引擎优化 (SEO) 新手指南中的提示和最佳做法。
- 您可点击此处以了解详情,包括我们为确保提供理想结果而制定的质量评分者指南
[/info]
完整介绍谷歌搜索工作原理
抓取
抓取是指 Googlebot 找出要添加到 Google 索引中的新网页和更新过的网页的过程。
我们使用大量计算机来提取(或“抓取”)网络上的海量网页。执行抓取任务的程序叫做 Googlebot(也被称为漫游器或“蜘蛛”程序)。Googlebot 使用算法来进行抓取:计算机程序会确定要抓取的网站、抓取频率以及从每个网站中抓取的网页数量。
Google 首先会以一份网页网址列表开始其抓取过程,该列表是在之前进行的抓取过程中形成的,且随着网站站长所提供的站点地图数据的增多而不断扩大。Googlebot 在访问每个网站时,会检测每个网页上的链接,并将这些链接添加到它要抓取的网页列表中。它会记录新建立的网站、对现有网站进行的更改以及无效链接,并据此更新 Google 索引。
Google 如何查找网页?
Google 使用多种技术来查找网页,包括:
- 跟踪其他网站或网页中的链接
- 读取站点地图
Google 如何得知哪些网页无法抓取?
- robots.txt 中屏蔽的网页无法抓取,但如果这些网页链接到其他网页,系统仍可能会将其编入索引。(Google 可以通过指向相应网页的链接来推断页面内容,并且在不解析其内容的情况下将相应网页编入索引。)
- Google 无法抓取任何匿名用户无法访问的网页。因此,任何登录或其他授权防护措施都将阻止 Google 抓取网页。
- Google 不会频繁地抓取那些先前已被抓取且被视为重复网页(与其他网页重复)的网页。
改善抓取质量
利用以下这些技术帮助 Google 发现您网站上正确的网页:
[info]
- 提交站点地图。
- 提交单个网页的抓取请求
- 针对网页使用简单易懂且合乎逻辑的网址路径,并在网站中提供清晰直接的内部链接。
- 如果您在自己的网站上使用网址参数进行导航(例如,如果您在一个全球购物网站上指明用户所在的国家/地区),请使用网址参数工具将重要参数的相关信息告知 Google。
- 明智地使用 robots.txt:使用 robots.txt 指明您希望 Google 了解哪些网页或先抓取哪些网页,而非将其作为阻止材料出现在 Google 索引中的方法,以保护您的服务器负载。
- 使用 hreflang 指向备用语言网页。
- 明确指出权威网页和备用网页。
- 使用索引涵盖报告查看您的抓取和索引涵盖范围
[/info]
编入索引
Googlebot 会处理所抓取的每个网页,将其找到的所有字词和这些字词在每个网页上的位置汇编成一个包含海量内容的索引。此外,我们还会处理关键内容标记和属性中的信息,例如 <title>
标记或和 Alt 属性。Googlebot 可处理多种类型的内容,但并不是所有类型的内容都能处理。例如,我们无法处理某些富媒体文件的内容。
在抓取和编入索引的间隙,Google 会确定相应网页是否是另一网页的重复或规范网页。如果该网页被视为重复网页,Google 便不会频繁地抓取它。
请注意,Google 不会将包含 noindex 指令(标头或标记)的网页编入索引。但前提是 Google 必须能够看到该指令;如果相应网页被 robots.txt 文件、登录页或其他设备屏蔽了,那么即使 Google 并未访问该网页,也可能会将其编入索引!
改善编入索引的效果
有多种技巧可增强 Google 对您的网页内容的理解能力,具体如下所示:
- 使用 noindex 阻止 Google 抓取或找到您要隐藏的网页。请勿对 robots.txt 屏蔽的网页添加“noindex”;如果您这样做,Google 将看不见“noindex”指令并且仍会将该网页编入索引。
- 使用结构化数据。
- 遵循 Google 网站站长指南。
- 查看 SEO 指南,以了解更多提示。
呈现结果
用户输入查询时,我们的机器会搜索索引查找匹配网页,并返回我们认为与用户搜索最相关的结果。相关性是由 200 多个因素决定的,我们一直致力于改进我们的算法。Google 在选择结果和对其进行排名时会考虑用户体验,因此请务必确保您的网页能快速加载且适合移动设备。
改善结果呈现
[info]
- 如果您的结果针对的是特定地点或使用特定语言的用户,则可以告知 Google 您的偏好。
- 确保您的网页能快速加载且适合移动设备。
- 遵循网站站长指南,避免常见的潜在问题并提高网站排名。
- 考虑为您的网站实施搜索结果功能,例如食谱卡片或文章卡片。
- 实施 AMP,以加快网页在移动设备上的加载速度。某些 AMP 网页也可以使用其他搜索功能,例如“焦点新闻”轮换展示。
- Google 的算法一直在不断改进,您应遵循我们的指南,努力创建符合用户需求的精彩内容,而不应尝试去猜测算法并根据算法来设计网页。
[/info]
—–END—-