写点什么

Eventbrite 和 SEO:Google 是如何找到一个页面的?

  • 2016-08-02
  • 本文字数:3188 字

    阅读完需:约 10 分钟

在搜索 SEO 时,有一件事让人倍感惊讶。当用户输入一个搜索词,得到的结果不是来自整个网络,而是来自 Google 对整个网络的收集代理。对于一个需要被纳入检索目录的页面来说,Google 必须对它进行句法上的分析,并把页面的内容存储到自己的数据库里。

为了做到这点,那些被称之为网络蜘蛛和爬虫的自动机器人,就会扫描整个互联网,寻找哪些链接指向了它们已经索引过的页面。这些爬虫会从一个页面开始,追踪找到的链接,扫描并索引这些页面。

这个模式会一直重复,直到搜索引擎索引了相当规模的网络样本。它会把每一个页面上收集到的元信息和文本存储在自己的数据库里,它们正是用这些数据,来生成给用户展示的搜索引擎页面排名。

你拥有一个线上网站,并不能保证 Google 就会找到它,并把所有页面纳入到排名中。它必须或者通过导入链接和导出链接,以及网站自己的地图找到所有页面,或者手动提交给 Google。Eventbrite 依靠所有这些策略的混合,来确保页面被纳入到 Google 的网络索引里。

导入链接

导入链接是那些来自其他域的指向你的网站的链接。Google 的爬虫来到一个页面,它们会迅速地从句法上分析它的内容,包括所有没有特别明示要搜索引擎忽视它们的链接。如果 A 网站包含了一个指向 B 网站的链接,Google 在做完 A 网站的句法分析后,就会跟随链接去 B 网站。有越多的外部网站链接了你的网站,Google 就越有可能索引到你的页面。

导入链接还在提升网站相关度和权威性方面扮演了重要角色。Google 的主要目标是把每个网络页面当成一个用户的世界。因此他们认为拥有大量导出链接的页面是受欢迎的,并且会在相关搜索结果中提高该页面的排名。但这些链接必须是自然出现的,因为如果 Google 发现页面的大部分导入链接都来自低权威性或不相关的页面,就会降低这个页面的排名,或者从他们的索引中整个去除这些页面。

Sausalito 艺术节网站链接到了 Eventbrite

链接到这次活动页面的网站,一般会包括被 Google 索引了的组织者个人的网站。举办活动的时候,Eventbrite 还会依靠媒体的发布,新闻文章和博客文章链接到活动页面。积累的外部资源越多,活动页面的权威指数越高。这将会提升 Eventbrite 的所有页面,因为 Google 会认为这个网站值得信任,并且因为链接到该网站的页面那么多,所以它很受欢迎。

导出链接

Google 进入一个 Eventbrite 页面的时候,Eventbrite 会用内部的链接引导爬虫到其他希望被 Google 索引到的页面中去。Eventbrite 会利用最受欢迎的页面,指向其他希望用户和 Google 都能找到的内部页面中去。Eventbrite 的主页是一个受用户欢迎的接入点,Google 会将任何主页上找到的内部链接视为重点分析句法和索引的页面。Eventbrite 也会将受欢迎的活动和链接纳入到自己的分类检索页面,以此受益。

Eventbrite 还会将一些精心策划的链接放在网站页脚中,让它们在每一个页面显示,这就给了 Google 一个良好的暗示,证明这些链接也是重要的。网站页脚中的一些链接是动态的,并且取决于网站顶级域(TLD)的访问。一个访问 Eventbrite.com 的用户会看到页脚中链接的是美国城市,而访问 Eventbrite.com.au 的用户则会在页脚中看到链接的是澳大利亚城市。

(点击放大图像)

Eventbrite 页脚 -US TLD

(点击放大图像)

Eventbrite 页脚 -Australia TLD

Eventbrite 还会在公共活动页面使用面包屑技术,从而连接城市和类别目录页。它不仅为 Google 找到这些页面提供了新的途径,还让用户能快速地从现在访问的活动页面跳转到其他类似的活动。

Eventbrite 活动页面的面包屑导航

网站地图

网站地图是一个或多个文件,它能为搜索引擎提供导航功能,找到一个网站的所有页面。它并不会代替链接,而是帮助爬虫寻找那些可能因独立或者缺乏相互关联而错过的页面。网站地图还能传达每一个 URL 中有用的元数据,包括它最后被修改的时间和一个页面改动的频次。你看到的网站地图可能主要是 XML 的文件格式,但 Google 也接受纯文本和 RSS 的格式。

对大型网站来说,最好拆分网站地图,因为 Google 有限制最多 50,000 个 URL 和 10MB 的未压缩文件体积。可以把这些 URL 放在小一些的网站地图中,让它们组成一个网站地图索引文件。Eventbrite 就采取了这种做法,因为它拥有超过一千万个页面,并且数量还在增长中。

Eventbrite 主要的网站地图索引包含了活动页面、目录页面、地点描述页面和组织者页面的网站地图链接。每一个网站地图都有各自优先的信息。这就给 Google 提供了需要多频繁地回来索引新页面的迹象。

(点击放大图像)

Eventbrite 网站地图索引的一个片段

要记住,把一个链接纳入到网站地图并不能保证 Google 的爬虫就会来索引并给它做句法分析。网站地图只是为搜索引擎提供索引建议,它不能替代相互链接的作用。

手动提交

对新网站来说,指望 Google 的爬虫通过导出链接找到他们是页面,这是不现实的。Google 允许你通过它的网站管理工具 Search Console 手动提交单个页面或者网站地图。再强调一次,Google 是否去抓取并索引这些页面,都是 Google 自主的决定。你也还是可以通过 Google 这个网站管理工具提交新的页面。

Google 的爬行预算

Google 对每一个网站都设置了抓取页面的限制,也叫预算。和每个网站的页面排名紧密相连,它们各自有不同的爬行预算。这就意味着,Google 越是认为你的网站相关性高且重要,它每次访问时就会花费越多预算去抓取和索引这些页面。

Google 用来设置一个网站爬行预算的决定因素,包括网站的权威性分数,网站的更新频率如何,新页面的添加频率,还有单个页面的访问速度和大小。为了提高页面数量,Google 每次访问的时候都会做索引,你要确保减少无效链接的数量,因为它们只是浪费时间,而爬虫将没有更多可追踪的链接。你还要确保网站没有重定向循环链接。重定向循环就是 A 网站重定向至 B 网站,然后又重定向回 A 网站。爬虫本应可以索引你网站的其他页面,却被困在循环里。

你还可以利用 Robot.txt 文件,来弄清楚哪些页面是不够重要的,或者品质较低的,然后添加一条规则,不允许爬虫追踪和索引这些页面或目录。Eventbrite 拥有超过一千万页面,但仅有 150 万个页面被收录到 Google 的索引中。Eventbrite 会紧密关注那些低品质内容的页面、垃圾页面和过期页面等,限制 Google 索引这些页面。它还会将自认为重要的链接放在接近主页的地方,或者使它们容易通过全球导航找到。一套仔细斟酌过的等级制度,是确保网站优先页面被频繁地索引和再索引的关键。

总结

互联网中有超过 4 亿网络页面,Google 需要一个帮手来找出新的网站和页面。Google 索引的网络页面数量,一个估测的数值是 10%。记住这件事非常重要:当用户在 Google 输入一个搜索词,得到的结果不是来自整个网络,而是来自 Google 的收集代理。返回的结果是那些 Google 已经找到并存储在它庞大数据库中的东西。

在改善 Google 对你的网站做句法分析和索引这件事上,你不该完全依赖单一种策略。一个清晰的、仔细斟酌过的网站等级制度,加上所有页面至少有一次内部连接,这些非常重要。为了让 Google 找到你的页面,网站地图是个很棒的起始点,对高优先级的新页面来说,手动提交很重要。

随着你网站的发展并收获更多导入链接,Google 会优先考虑索引新的页面,因为它希望最具相关性和受欢迎的页面出现在搜索结果中。把那些会将用户引入你网站的内容纳入进来,也会提高你在搜索引擎中出现的几率。Eventbrite 信奉的座右铭是:有利于 SEO 的,必定也是有利于用户体验的。

作者介绍:Beck Cronin-Dixon 是在线活动策划服务平台 Eventbrite 的软件工程师,目前专门研究 SEO。她还有交互式 Web 开发、Python、Django、JavaScript、Angular 和 React 方面的经验。

查看英文原文 Eventbrite and SEO: How does Google find our pages?


感谢陈兴璐对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-08-02 18:052819

评论

发布
暂无评论
发现更多内容

云渲染一张图大概多久?云渲染快吗?

Renderbus瑞云渲染农场

云渲染

“上云”成本低,稳定可靠!华为云OBS助力企业解决数据存储难题

与时俱进的时代

不止于快,华为云CDN加速服务为企业提供安全加速环境

科技说

华为云CDN加速服务的精细化管理,让加速变得简单起来

科技说

存储数据不要愁,华为云来帮你!

与时俱进的时代

APISIX Ingress 对 Gateway API 的支持和应用

API7.ai 技术团队

云原生 APISIX API Gateway Ingress Controller

2022年11月视频行业用户洞察:世界杯效应显著,咪咕视频凭借大屏、小屏同时触达球迷群体,未来体育营销将更加激烈

易观分析

视频 世界杯

支持随时畅玩3A游戏,华为云大数据助力游戏厂商快速稳健发展!

与时俱进的时代

2022卡塔尔世界杯专题分析

易观分析

世界杯 体育

企业数据如何存?华为云对象存储服务OBS帮您忙

IT科技苏辞

干货|无源元件之——电感基础知识(详解)

元器件秋姐

科普 电感器 电感 电感元件 电子知识

不止稳定快速,看华为云CDN如何在国际云服务市场中“分蛋糕”

爱科技的水月

【电商行业必备神器】轻松备战“双十一”,华为云OBS值得拥有

与时俱进的时代

软件测试 / 测试开发 / BAT大厂都在用的Docker。学会这三招,面试、工作轻松hold住

测试人

Docker 容器 软件测试 测试开发 环境搭建

华为云CDN:海量存储+过硬本领为用户带来更优体验

科技说

华为云CDN加速,如何助力企业更好发展?

爱科技的水月

华为云CDN加速服务,让企业用户上网“走高速”

爱科技的水月

华为云大数据BI解决方案助企业突破数据壁垒,加快企业数字化建设

与时俱进的时代

极狐GitLab include 语法减少 CI/CD Pipeline 代码冗余,提升构建效率

极狐GitLab

DevOps CI/CD pipeline 极狐GitLab include

Oracle数据库安装配置详细教程汇总(含11g、12c、18c、19c、21c)

墨天轮

数据库 oracle 升级 安装 & 部署

华为云CDN,如何助力智能新媒体转型

科技说

何惧内卷?华为云对象存储服务OBS工具随便拿出一个都很能打

与时俱进的时代

助力游戏厂商稳健发展,华为云大数据解决方案高效赋能!

与时俱进的时代

什么样的魔法棒,能让AI魔法师一夜成名?

白洞计划

什么样的魔法棒,能让AI魔法师一夜成名?

脑极体

一文读懂 | Getaverse 节点部署

Geek_Web3

华为云CDN加速,为企业开启高效且安全的加速环境

科技说

不止于快,华为云CDN加速服务对OBS桶文件加速的超实用技巧

爱科技的水月

存储空间不够大?试试华为云OBS对象存储服务

与时俱进的时代

华为云CDN加速服务助你开启网络加速时代

爱科技的水月

数据存储难?华为云对象存储OBS轻松解决

IT科技苏辞

Eventbrite和SEO:Google是如何找到一个页面的?_Google_Beck Cronin-Dixon_InfoQ精选文章