【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

Eventbrite 和 SEO:Google 是如何找到一个页面的?

  • 2016-08-02
  • 本文字数:3188 字

    阅读完需:约 10 分钟

在搜索 SEO 时,有一件事让人倍感惊讶。当用户输入一个搜索词,得到的结果不是来自整个网络,而是来自 Google 对整个网络的收集代理。对于一个需要被纳入检索目录的页面来说,Google 必须对它进行句法上的分析,并把页面的内容存储到自己的数据库里。

为了做到这点,那些被称之为网络蜘蛛和爬虫的自动机器人,就会扫描整个互联网,寻找哪些链接指向了它们已经索引过的页面。这些爬虫会从一个页面开始,追踪找到的链接,扫描并索引这些页面。

这个模式会一直重复,直到搜索引擎索引了相当规模的网络样本。它会把每一个页面上收集到的元信息和文本存储在自己的数据库里,它们正是用这些数据,来生成给用户展示的搜索引擎页面排名。

你拥有一个线上网站,并不能保证 Google 就会找到它,并把所有页面纳入到排名中。它必须或者通过导入链接和导出链接,以及网站自己的地图找到所有页面,或者手动提交给 Google。Eventbrite 依靠所有这些策略的混合,来确保页面被纳入到 Google 的网络索引里。

导入链接

导入链接是那些来自其他域的指向你的网站的链接。Google 的爬虫来到一个页面,它们会迅速地从句法上分析它的内容,包括所有没有特别明示要搜索引擎忽视它们的链接。如果 A 网站包含了一个指向 B 网站的链接,Google 在做完 A 网站的句法分析后,就会跟随链接去 B 网站。有越多的外部网站链接了你的网站,Google 就越有可能索引到你的页面。

导入链接还在提升网站相关度和权威性方面扮演了重要角色。Google 的主要目标是把每个网络页面当成一个用户的世界。因此他们认为拥有大量导出链接的页面是受欢迎的,并且会在相关搜索结果中提高该页面的排名。但这些链接必须是自然出现的,因为如果 Google 发现页面的大部分导入链接都来自低权威性或不相关的页面,就会降低这个页面的排名,或者从他们的索引中整个去除这些页面。

Sausalito 艺术节网站链接到了 Eventbrite

链接到这次活动页面的网站,一般会包括被 Google 索引了的组织者个人的网站。举办活动的时候,Eventbrite 还会依靠媒体的发布,新闻文章和博客文章链接到活动页面。积累的外部资源越多,活动页面的权威指数越高。这将会提升 Eventbrite 的所有页面,因为 Google 会认为这个网站值得信任,并且因为链接到该网站的页面那么多,所以它很受欢迎。

导出链接

Google 进入一个 Eventbrite 页面的时候,Eventbrite 会用内部的链接引导爬虫到其他希望被 Google 索引到的页面中去。Eventbrite 会利用最受欢迎的页面,指向其他希望用户和 Google 都能找到的内部页面中去。Eventbrite 的主页是一个受用户欢迎的接入点,Google 会将任何主页上找到的内部链接视为重点分析句法和索引的页面。Eventbrite 也会将受欢迎的活动和链接纳入到自己的分类检索页面,以此受益。

Eventbrite 还会将一些精心策划的链接放在网站页脚中,让它们在每一个页面显示,这就给了 Google 一个良好的暗示,证明这些链接也是重要的。网站页脚中的一些链接是动态的,并且取决于网站顶级域(TLD)的访问。一个访问 Eventbrite.com 的用户会看到页脚中链接的是美国城市,而访问 Eventbrite.com.au 的用户则会在页脚中看到链接的是澳大利亚城市。

(点击放大图像)

Eventbrite 页脚 -US TLD

(点击放大图像)

Eventbrite 页脚 -Australia TLD

Eventbrite 还会在公共活动页面使用面包屑技术,从而连接城市和类别目录页。它不仅为 Google 找到这些页面提供了新的途径,还让用户能快速地从现在访问的活动页面跳转到其他类似的活动。

Eventbrite 活动页面的面包屑导航

网站地图

网站地图是一个或多个文件,它能为搜索引擎提供导航功能,找到一个网站的所有页面。它并不会代替链接,而是帮助爬虫寻找那些可能因独立或者缺乏相互关联而错过的页面。网站地图还能传达每一个 URL 中有用的元数据,包括它最后被修改的时间和一个页面改动的频次。你看到的网站地图可能主要是 XML 的文件格式,但 Google 也接受纯文本和 RSS 的格式。

对大型网站来说,最好拆分网站地图,因为 Google 有限制最多 50,000 个 URL 和 10MB 的未压缩文件体积。可以把这些 URL 放在小一些的网站地图中,让它们组成一个网站地图索引文件。Eventbrite 就采取了这种做法,因为它拥有超过一千万个页面,并且数量还在增长中。

Eventbrite 主要的网站地图索引包含了活动页面、目录页面、地点描述页面和组织者页面的网站地图链接。每一个网站地图都有各自优先的信息。这就给 Google 提供了需要多频繁地回来索引新页面的迹象。

(点击放大图像)

Eventbrite 网站地图索引的一个片段

要记住,把一个链接纳入到网站地图并不能保证 Google 的爬虫就会来索引并给它做句法分析。网站地图只是为搜索引擎提供索引建议,它不能替代相互链接的作用。

手动提交

对新网站来说,指望 Google 的爬虫通过导出链接找到他们是页面,这是不现实的。Google 允许你通过它的网站管理工具 Search Console 手动提交单个页面或者网站地图。再强调一次,Google 是否去抓取并索引这些页面,都是 Google 自主的决定。你也还是可以通过 Google 这个网站管理工具提交新的页面。

Google 的爬行预算

Google 对每一个网站都设置了抓取页面的限制,也叫预算。和每个网站的页面排名紧密相连,它们各自有不同的爬行预算。这就意味着,Google 越是认为你的网站相关性高且重要,它每次访问时就会花费越多预算去抓取和索引这些页面。

Google 用来设置一个网站爬行预算的决定因素,包括网站的权威性分数,网站的更新频率如何,新页面的添加频率,还有单个页面的访问速度和大小。为了提高页面数量,Google 每次访问的时候都会做索引,你要确保减少无效链接的数量,因为它们只是浪费时间,而爬虫将没有更多可追踪的链接。你还要确保网站没有重定向循环链接。重定向循环就是 A 网站重定向至 B 网站,然后又重定向回 A 网站。爬虫本应可以索引你网站的其他页面,却被困在循环里。

你还可以利用 Robot.txt 文件,来弄清楚哪些页面是不够重要的,或者品质较低的,然后添加一条规则,不允许爬虫追踪和索引这些页面或目录。Eventbrite 拥有超过一千万页面,但仅有 150 万个页面被收录到 Google 的索引中。Eventbrite 会紧密关注那些低品质内容的页面、垃圾页面和过期页面等,限制 Google 索引这些页面。它还会将自认为重要的链接放在接近主页的地方,或者使它们容易通过全球导航找到。一套仔细斟酌过的等级制度,是确保网站优先页面被频繁地索引和再索引的关键。

总结

互联网中有超过 4 亿网络页面,Google 需要一个帮手来找出新的网站和页面。Google 索引的网络页面数量,一个估测的数值是 10%。记住这件事非常重要:当用户在 Google 输入一个搜索词,得到的结果不是来自整个网络,而是来自 Google 的收集代理。返回的结果是那些 Google 已经找到并存储在它庞大数据库中的东西。

在改善 Google 对你的网站做句法分析和索引这件事上,你不该完全依赖单一种策略。一个清晰的、仔细斟酌过的网站等级制度,加上所有页面至少有一次内部连接,这些非常重要。为了让 Google 找到你的页面,网站地图是个很棒的起始点,对高优先级的新页面来说,手动提交很重要。

随着你网站的发展并收获更多导入链接,Google 会优先考虑索引新的页面,因为它希望最具相关性和受欢迎的页面出现在搜索结果中。把那些会将用户引入你网站的内容纳入进来,也会提高你在搜索引擎中出现的几率。Eventbrite 信奉的座右铭是:有利于 SEO 的,必定也是有利于用户体验的。

作者介绍:Beck Cronin-Dixon 是在线活动策划服务平台 Eventbrite 的软件工程师,目前专门研究 SEO。她还有交互式 Web 开发、Python、Django、JavaScript、Angular 和 React 方面的经验。

查看英文原文 Eventbrite and SEO: How does Google find our pages?


感谢陈兴璐对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-08-02 18:052082

评论

发布
暂无评论
发现更多内容

京东二面,Redis为什么这么快?

做梦都在改BUG

Java 数据库 redis 缓存 面试

网易云信 Crash 异常治理实践 | 智企技术委员会技术专题系列

网易云信

系统设计 异常处理

AppUploader教程:如何注册账号并激活AppUploader

雪奈椰子

如何让SpringBoot项目启动时执行特定代码

做梦都在改BUG

Java Spring Boot

云服务器建站教程:Centos-7.2部署LNMP环境

百度开发者中心

云服务器,

DAPP/伪DAPP区块链智能合约系统开发(成熟技术)

I8O28578624

AppUploader教程:如何使用该工具制作Apple证书

雪奈椰子

ios打包

选对调度器,让你的设备“纵享丝滑”

鼎道智联

算法 cpu ESA

网易云信 Crash 异常治理实践 | 智企技术委员会技术专题系列

网易智企

系统设计 异常处理

关于微服务系统中数据一致性的总结

做梦都在改BUG

Java 微服务 数据一致性

数据库大牛推荐的《MySQL》书籍,值得反复阅读

NineData

MySQL 程序员 书籍推荐 MySQL 高可用 学习MySQL

云服务器建站教程:云服务器部署SSL证书-Apache

百度开发者中心

centos 云服务器 LAMP

快速打包、发布和管理应用——AppUploader工具介绍

雪奈椰子

黑盒测试方法—等价类划分法

测吧(北京)科技有限公司

测试

如何使用Xcode打包导出IPA文件并进行iOS应用内测,无需支付苹果开发者账号费用?

雪奈椰子

ios打包

GitHub破千Star!Java多线程编程实战指南:核心篇+设计模式篇

做梦都在改BUG

Java 并发编程 多线程

快速上手AppUploader——下载和安装操作

雪奈椰子

Windows2008与Windows2012下使用IIS服务搭建网站

百度开发者中心

windows IIS 云服务器

Linux系统搭建FTP服务

百度开发者中心

ftp服务

直播预约|Search for Future,阿里云 × Elastic 中国用户峰会 2023

阿里云大数据AI技术

大数据 阿里云 搜索

我的天,你还不会搭建ChatGPT微应用吗?| 社区征文

三掌柜

人工智能 openai ChatGPT

瓴羊Quick BI是一款成熟产品,数据可视化功能优势明显!

夏日星河

云服务器建站教程:云服务器部署SSL证书-Nginx

百度开发者中心

centos 云服务器

最佳实践 | 使用WebSocket做个实时人脸活体比对服务

牵着蜗牛去散步

人工智能 腾讯 最佳实践 腾讯云智能 慧眼人脸核身

预售登上计算机新书热卖榜TOP1,开年重磅,助力Java程序员飙升核心技能

图灵教育

Spring boot starter test java 后端、 程序员 java

阿里内网「MySQL面试小册」,简直太香了!

做梦都在改BUG

Java MySQL 数据库 面试

2022中国低代码全景产业研究报告

人称T客

23年国内最牛的Java面试八股文合集(全彩版),不接受反驳

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

宝刀未老!VB语言迎来春天,低代码绝地逢生,程序员能淡定吗?

这我可不懂

低代码 低代码平台 JNPF Visual

Gartner首次针对中国市场发布产业数字化白皮书,联合卡奥斯共探区域经济发展最优解

Openlab_cosmoplat

数字化 产业数字化 白皮书 开源社区 Gartner

软件测试/测试开发 | 数据持久化技术(Java)

测试人

软件测试 测试发开

Eventbrite和SEO:Google是如何找到一个页面的?_Google_Beck Cronin-Dixon_InfoQ精选文章