Cloudflare 推出面向 AI 代理的 Markdown 页面与 Content Signals，用于引导 AI 爬虫

Cloudflare 推出了 “Markdown for Agents” 功能，使 AI 爬虫能够通过发送 Accept: text/markdown 请求头来获取网页的 Markdown 版本。该公司还同时提出了一种名为 “Content Signals” 的机制，允许内容发布者声明其内容是否可以用于 AI 训练、搜索索引或推理使用。尽管这一举措是为让大语言模型（LLM）更容易理解网页内容，但它也延续了一个长期争论：互联网是否应该为 AI 代理重新设计，还是 AI 公司应当适应现有的 Web 标准。

Cloudflare 认为，HTML 页面包含导航、样式和脚本等内容，而这些对 LLM 来说几乎没有语义价值。例如，一个简单的 Markdown 标题大约消耗 3 个 token，而等效的 HTML 标记则需要 12 到 15 个 token。公司表示，一篇在 HTML 形式下需要约 16,180 个 token 的博客文章，在转换为 Markdown 后仅需约 3,150 个 token。

AI 代理可以通过在 Accept 请求头中指定 text/markdown 来触发这一转换。Cloudflare 的边缘服务器随后会获取原始 HTML 页面，将其转换为 Markdown，并返回结果，同时附带一个 x-markdown-tokens 响应头，用于显示估算的 token 数量。其目标是提升检索增强生成（RAG）流程的效率。

“Content Signals” 提案还增加了一层“同意机制”。发布者可以在 robots.txt 的注释中插入三个信号：search、ai-input 和 ai-train，用于声明内容是否允许被搜索索引、作为实时 AI 输入使用或被纳入模型训练。“yes” 表示允许，“no” 表示禁止，而未设置则表示无明确偏好。Cloudflare 也承认，这些信号仅表达偏好，并不具备强制执行力。同时，公司指出，目前 Markdown 响应默认会包含 Content-Signal: ai-train=yes, search=yes, ai-input=yes。Cloudflare 表示，许多客户已经部署了托管的 robots.txt 文件，允许搜索引擎抓取但禁止用于训练，这表明市场对更细粒度控制的需求正在增长。

这一举措也引发了搜索引擎领域人士的质疑。谷歌的 John Mueller 提出疑问：LLM 爬虫是否会将 Markdown 视为普通文本文件，以及是否能正确处理其中的链接与导航结构。他在 Bluesky 上称，将页面转换为 Markdown 专门提供给机器人是一种“愚蠢的想法”，认为这种“扁平化”处理会丢失上下文与结构信息，并指出 LLM 已经能够解析 HTML，甚至可以理解图像内容。

出版方在如何应对 AI 抓取问题上也存在分歧。Medium 在 2023 年采取默认禁止用于 AI 训练的政策，更新了服务条款与 robots.txt 来阻止 AI 爬虫，并与 Reuters、The New York Times、CNN 等媒体一样，对 OpenAI 的爬虫实施全站封锁。Medium CEO 表示，AI 公司是在未获得同意或补偿的情况下使用作者内容。Cloudflare 也曾尝试一种“按抓取付费”的模式：向 AI 爬虫返回 HTTP 402（Payment Required）响应。发布者可以选择允许、收费或阻止特定机器人，从而获得内容变现的可能性。

随着越来越多的发布者开始封锁 AI 爬虫或探索付费访问模式，围绕同意机制、补偿方式以及技术适配的争论预计将进一步加剧。Markdown-for-Agents 是否会成为广泛采用的标准，还是仅作为一种可选优化存在，将取决于 AI 平台如何响应这些信号，以及发布者是否认为为机器提供“友好格式”具有实际价值。

创作场景

Cloudflare 推出面向 AI 代理的 Markdown 页面与 Content Signals，用于引导 AI 爬虫