自1994年以来，《机器人排除协议》(REP)一直控制着定义如何防止爬行器访问网站的规则。现在，谷歌已经向互联网工程工作组(IETF)提交了一份草案，使其成为一个互联网标准。此外，谷歌还开放了协议实现的源代码。

拟稿反映了现实世界中依赖robots.txt规则超过20年的经历，Googlebot和其他主要爬虫程序都使用了txt规则，依赖REP. txt规则的网站约有5亿个。

谷歌保留了REP的基本定义，但定义了许多没有考虑到的场景，并将其扩展到现代web。特别是，新的 REP 不限于HTTP，可以用于其他协议，包括FTP或受约束的应用程序协议。另一项新规定实际上限制了robots.txt文件的最大大小，要求开发人员至少解析其前500kb的内容。虽然不排除现有的robots.txt文件比这更大，但这一要求的目的是减少服务器上的负载。新REP 还定义了robots.txt文件缓存的时间，基本上形式化了谷歌已经执行了很长一段时间的规则，它设置了最大缓存生命周期为24小时，而没有指定缓存控制指令，例如HTTP cache - control。在robots.txt文件由于服务器故障而无法访问的情况下，这条规则有一个例外，在这种情况下，可以延长缓存，以避免爬行以前已知不允许的页面。

草案中没有包括一些正在使用的指令，包括爬行延迟、nofollow和noindex，谷歌将在2019年9月1日之前停用所有处理此类规则的代码。这意味着，特别是依赖于noindex来阻止页面进入谷歌索引的网站管理员应该寻找替代方法了。这些方法包括在HTML中使用noindex robots元标记、HTTP响应头或返回404或410 HTTP状态代码。谷歌还澄清说，虽然robots.txt Disallow指令并不保证某个页面不会被列在谷歌索引中，但他们的目标是，如果出于某种原因索引了这些页面，那么将来这些页面的可见性就会降低。

如前所述，谷歌还开放了他们在爬虫程序中使用的c++库的源代码。这个库可以被认为是协议草案的一个参考实现，并包含一个robots.txt规则的测试工具。谷歌新REP草案包括一个更新的 Backus-Naur描述的语法规则，一个必须遵守的robots.txt文件。c++库和Backus-Naur规范的方向都是使开发人员更容易可靠地构建robots.txt解析器。

新的REP草案目前处于征求意见的状态，正在等待各相关方的反馈。

原文链接：

Google Formalizes Robots Exclusion Protocol in Effort to Make It an Internet Standard

创作场景

谷歌推进《机器人排除协议》草案，使之成为互联网标准