写点什么

Eventbrite 和 SEO:Google 是如何找到一个页面的?

  • 2016-08-02
  • 本文字数:3188 字

    阅读完需:约 10 分钟

在搜索 SEO 时,有一件事让人倍感惊讶。当用户输入一个搜索词,得到的结果不是来自整个网络,而是来自 Google 对整个网络的收集代理。对于一个需要被纳入检索目录的页面来说,Google 必须对它进行句法上的分析,并把页面的内容存储到自己的数据库里。

为了做到这点,那些被称之为网络蜘蛛和爬虫的自动机器人,就会扫描整个互联网,寻找哪些链接指向了它们已经索引过的页面。这些爬虫会从一个页面开始,追踪找到的链接,扫描并索引这些页面。

这个模式会一直重复,直到搜索引擎索引了相当规模的网络样本。它会把每一个页面上收集到的元信息和文本存储在自己的数据库里,它们正是用这些数据,来生成给用户展示的搜索引擎页面排名。

你拥有一个线上网站,并不能保证 Google 就会找到它,并把所有页面纳入到排名中。它必须或者通过导入链接和导出链接,以及网站自己的地图找到所有页面,或者手动提交给 Google。Eventbrite 依靠所有这些策略的混合,来确保页面被纳入到 Google 的网络索引里。

导入链接

导入链接是那些来自其他域的指向你的网站的链接。Google 的爬虫来到一个页面,它们会迅速地从句法上分析它的内容,包括所有没有特别明示要搜索引擎忽视它们的链接。如果 A 网站包含了一个指向 B 网站的链接,Google 在做完 A 网站的句法分析后,就会跟随链接去 B 网站。有越多的外部网站链接了你的网站,Google 就越有可能索引到你的页面。

导入链接还在提升网站相关度和权威性方面扮演了重要角色。Google 的主要目标是把每个网络页面当成一个用户的世界。因此他们认为拥有大量导出链接的页面是受欢迎的,并且会在相关搜索结果中提高该页面的排名。但这些链接必须是自然出现的,因为如果 Google 发现页面的大部分导入链接都来自低权威性或不相关的页面,就会降低这个页面的排名,或者从他们的索引中整个去除这些页面。

Sausalito 艺术节网站链接到了 Eventbrite

链接到这次活动页面的网站,一般会包括被 Google 索引了的组织者个人的网站。举办活动的时候,Eventbrite 还会依靠媒体的发布,新闻文章和博客文章链接到活动页面。积累的外部资源越多,活动页面的权威指数越高。这将会提升 Eventbrite 的所有页面,因为 Google 会认为这个网站值得信任,并且因为链接到该网站的页面那么多,所以它很受欢迎。

导出链接

Google 进入一个 Eventbrite 页面的时候,Eventbrite 会用内部的链接引导爬虫到其他希望被 Google 索引到的页面中去。Eventbrite 会利用最受欢迎的页面,指向其他希望用户和 Google 都能找到的内部页面中去。Eventbrite 的主页是一个受用户欢迎的接入点,Google 会将任何主页上找到的内部链接视为重点分析句法和索引的页面。Eventbrite 也会将受欢迎的活动和链接纳入到自己的分类检索页面,以此受益。

Eventbrite 还会将一些精心策划的链接放在网站页脚中,让它们在每一个页面显示,这就给了 Google 一个良好的暗示,证明这些链接也是重要的。网站页脚中的一些链接是动态的,并且取决于网站顶级域(TLD)的访问。一个访问 Eventbrite.com 的用户会看到页脚中链接的是美国城市,而访问 Eventbrite.com.au 的用户则会在页脚中看到链接的是澳大利亚城市。

(点击放大图像)

Eventbrite 页脚 -US TLD

(点击放大图像)

Eventbrite 页脚 -Australia TLD

Eventbrite 还会在公共活动页面使用面包屑技术,从而连接城市和类别目录页。它不仅为 Google 找到这些页面提供了新的途径,还让用户能快速地从现在访问的活动页面跳转到其他类似的活动。

Eventbrite 活动页面的面包屑导航

网站地图

网站地图是一个或多个文件,它能为搜索引擎提供导航功能,找到一个网站的所有页面。它并不会代替链接,而是帮助爬虫寻找那些可能因独立或者缺乏相互关联而错过的页面。网站地图还能传达每一个 URL 中有用的元数据,包括它最后被修改的时间和一个页面改动的频次。你看到的网站地图可能主要是 XML 的文件格式,但 Google 也接受纯文本和 RSS 的格式。

对大型网站来说,最好拆分网站地图,因为 Google 有限制最多 50,000 个 URL 和 10MB 的未压缩文件体积。可以把这些 URL 放在小一些的网站地图中,让它们组成一个网站地图索引文件。Eventbrite 就采取了这种做法,因为它拥有超过一千万个页面,并且数量还在增长中。

Eventbrite 主要的网站地图索引包含了活动页面、目录页面、地点描述页面和组织者页面的网站地图链接。每一个网站地图都有各自优先的信息。这就给 Google 提供了需要多频繁地回来索引新页面的迹象。

(点击放大图像)

Eventbrite 网站地图索引的一个片段

要记住,把一个链接纳入到网站地图并不能保证 Google 的爬虫就会来索引并给它做句法分析。网站地图只是为搜索引擎提供索引建议,它不能替代相互链接的作用。

手动提交

对新网站来说,指望 Google 的爬虫通过导出链接找到他们是页面,这是不现实的。Google 允许你通过它的网站管理工具 Search Console 手动提交单个页面或者网站地图。再强调一次,Google 是否去抓取并索引这些页面,都是 Google 自主的决定。你也还是可以通过 Google 这个网站管理工具提交新的页面。

Google 的爬行预算

Google 对每一个网站都设置了抓取页面的限制,也叫预算。和每个网站的页面排名紧密相连,它们各自有不同的爬行预算。这就意味着,Google 越是认为你的网站相关性高且重要,它每次访问时就会花费越多预算去抓取和索引这些页面。

Google 用来设置一个网站爬行预算的决定因素,包括网站的权威性分数,网站的更新频率如何,新页面的添加频率,还有单个页面的访问速度和大小。为了提高页面数量,Google 每次访问的时候都会做索引,你要确保减少无效链接的数量,因为它们只是浪费时间,而爬虫将没有更多可追踪的链接。你还要确保网站没有重定向循环链接。重定向循环就是 A 网站重定向至 B 网站,然后又重定向回 A 网站。爬虫本应可以索引你网站的其他页面,却被困在循环里。

你还可以利用 Robot.txt 文件,来弄清楚哪些页面是不够重要的,或者品质较低的,然后添加一条规则,不允许爬虫追踪和索引这些页面或目录。Eventbrite 拥有超过一千万页面,但仅有 150 万个页面被收录到 Google 的索引中。Eventbrite 会紧密关注那些低品质内容的页面、垃圾页面和过期页面等,限制 Google 索引这些页面。它还会将自认为重要的链接放在接近主页的地方,或者使它们容易通过全球导航找到。一套仔细斟酌过的等级制度,是确保网站优先页面被频繁地索引和再索引的关键。

总结

互联网中有超过 4 亿网络页面,Google 需要一个帮手来找出新的网站和页面。Google 索引的网络页面数量,一个估测的数值是 10%。记住这件事非常重要:当用户在 Google 输入一个搜索词,得到的结果不是来自整个网络,而是来自 Google 的收集代理。返回的结果是那些 Google 已经找到并存储在它庞大数据库中的东西。

在改善 Google 对你的网站做句法分析和索引这件事上,你不该完全依赖单一种策略。一个清晰的、仔细斟酌过的网站等级制度,加上所有页面至少有一次内部连接,这些非常重要。为了让 Google 找到你的页面,网站地图是个很棒的起始点,对高优先级的新页面来说,手动提交很重要。

随着你网站的发展并收获更多导入链接,Google 会优先考虑索引新的页面,因为它希望最具相关性和受欢迎的页面出现在搜索结果中。把那些会将用户引入你网站的内容纳入进来,也会提高你在搜索引擎中出现的几率。Eventbrite 信奉的座右铭是:有利于 SEO 的,必定也是有利于用户体验的。

作者介绍:Beck Cronin-Dixon 是在线活动策划服务平台 Eventbrite 的软件工程师,目前专门研究 SEO。她还有交互式 Web 开发、Python、Django、JavaScript、Angular 和 React 方面的经验。

查看英文原文 Eventbrite and SEO: How does Google find our pages?


感谢陈兴璐对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2016-08-02 18:052771

评论

发布
暂无评论
发现更多内容

教你一键搭建本地服务器,轻松4人以上联机畅玩幻兽帕鲁

华为云开发者联盟

云计算 服务器 华为云 华为云开发者联盟

工厂生产管理MES系统,开源代码+维护

万界星空科技

开源 源码 mes 开源mes 万界星空科技

百川终入海 ,一站式海量数据迁移工具 X2Doris 正式发布

SelectDB

数据库 OLAP 数据库迁移 数据同步 大数据 开源

Pod/Node 内存高负载故障注入

腾讯云混沌演练平台

k8s 混沌工程

软件测试学习笔记丨Linux命令 uniq去重

测试人

软件测试

软件测试岗位内推丨京东科技控股股份有限公司岗位开放

测试人

软件测试

「我在淘天做技术」2024年看AIGC是如何让1688主图焕发新春的

阿里技术

商品 大模型 1688 AIGC

左耳听风 - 绩效考核「读书打卡 day 19」

Java 工程师蔡姬

读书笔记 程序员 个人成长 职业发展 绩效考核

【技术探讨】无线通信中如何排查电磁波干扰?

Geek_ab1536

结合数据分析工具,深入挖掘淘宝API接口的商业价值

Noah

测试管理 | 京东科技控股股份有限公司岗位开放~

测吧(北京)科技有限公司

测试

✅快速构建Express服务

派大星

node.js Express

预计算的时代该结束了

Braisdom

大数据 BI StarRocks BI 分析工具

云堡垒机是软件堡垒机吗?是一种产品吗?

行云管家

云计算 网络安全 堡垒机

Walrus 0.5发布:重构交互流程,打造开箱即用的部署体验

SEAL安全

GitHub 开源 平台工程 Walrus

异常检测、自动告警,业务问题分钟级识别

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟

复杂SQL治理实践 | 京东物流技术团队

京东科技开发者

Apache Doris 2.0.4 版本正式发布

SelectDB

数据仓库 数据分析 OLAP 大数据 开源 数据库·

机械加工行业MES系统实施步骤

万界星空科技

mes 万界星空科技 机械 机械加工行业 机加工MES

MES系统计划排产功能,助你提升生产效率

万界星空科技

生产管理系统 mes 万界星空科技 万界星空科技mes 排产计划

吴杰庄对话 BTC Inc. 国际业务总监:东西方 Web3 领域的合作与竞争

TechubNews

Eventbrite和SEO:Google是如何找到一个页面的?_Google_Beck Cronin-Dixon_InfoQ精选文章