机器人排除协议（REP）是一种标准，使网站所有者能够通过具有特定语法的简单文本文件来控制自动客户端（即爬虫）可以访问哪些URL。它是我们所知道的互联网基本构建模块之一，也是搜索引擎运行的基础。

25年来，机器人排除协议(REP)几乎成为了一种约定俗成的标准，但这有时会带来一些负面的影响，不同的开发者实现robots.txt的解析总是略有不同，很容易导致混乱。

一方面，对于网站管理员来说，这意味着在某些特殊情况下的不确定性，比如当他们的文本编辑器在robots.txt文件中包含BOM字符时。另一方面，对于爬虫和工具开发人员来说，也带来了不确定性，例如，它们应该如何处理几百兆字节的robots.txt文件?

今天，谷歌宣布：将通过发布一款Google内部使用的解析器和一套C++库来解决这个问题。

据称，这个库已经有20年的历史了，它包含了一些九十年代编写的代码，也包含了很多关于网站管理员如何编写robots.txt文件和必须处理的案例的知识。

该C++库只对产品代码做了轻微修改（即一些内部header和等同的符号），Googlebot（Google的抓取工具）使用它来根据robots.txt文件中网站管理员提供的规则确定可以访问的网址，可帮助开发人员构建更好地反映Google robots.txt解析和匹配的工具。

库中包含了一个二进制文件，用于针对用户代理和URL测试本地robots.txt。运行包含的二进制文件需要：

兼容的平台（例如Windows，Mac OS X，Linux等）。大多数平台都完全支持。
兼容的C ++编译器，至少支持C ++ 11。大多数主要编译器都受到支持。
Git用于与源代码存储库交互。如要安装Git，请参阅GitHub上的 Set Up Git指南。
虽然用户可以自由使用自己的构建系统，但本指南中的大多数文档都假设用户使用的是 Bazel。要下载和安装Bazel（及其任何依赖项），请参阅 Bazel安装指南。

此外，谷歌还在开源包中添加了一个测试工具，以帮助开发者测试一些规则。使用非常简单：

robots_main <robots.txt content> <user_agent> <url>

谷歌正式开源内部解析器与代码库，旨在推进形成 robots.txt 解析标准