写点什么

Cloudflare 推出面向 AI 代理的 Markdown 页面与 Content Signals,用于引导 AI 爬虫

作者:Matt Foster
  • 2026-03-13
    北京
  • 本文字数:1282 字

    阅读完需:约 4 分钟

Cloudflare 推出了 Markdown for Agents 功能,使 AI 爬虫能够通过发送 Accept: text/markdown 请求头来获取网页的 Markdown 版本。该公司还同时提出了一种名为 “Content Signals” 的机制,允许内容发布者声明其内容是否可以用于 AI 训练、搜索索引或推理使用。尽管这一举措是为让大语言模型(LLM)更容易理解网页内容,但它也延续了一个长期争论:互联网是否应该为 AI 代理重新设计,还是 AI 公司应当适应现有的 Web 标准。

 

Cloudflare 认为,HTML 页面包含导航、样式和脚本等内容,而这些对 LLM 来说几乎没有语义价值。例如,一个简单的 Markdown 标题大约消耗 3 个 token,而等效的 HTML 标记则需要 12 到 15 个 token。公司表示,一篇在 HTML 形式下需要约 16,180 个 token 的博客文章,在转换为 Markdown 后仅需约 3,150 个 token。

 

AI 代理可以通过在 Accept 请求头中指定 text/markdown 来触发这一转换。Cloudflare 的边缘服务器随后会获取原始 HTML 页面,将其转换为 Markdown,并返回结果,同时附带一个 x-markdown-tokens 响应头,用于显示估算的 token 数量。其目标是提升检索增强生成(RAG)流程的效率。

 

“Content Signals” 提案还增加了一层“同意机制”。发布者可以在 robots.txt 的注释中插入三个信号:searchai-inputai-train,用于声明内容是否允许被搜索索引、作为实时 AI 输入使用或被纳入模型训练。“yes” 表示允许,“no” 表示禁止,而未设置则表示无明确偏好。Cloudflare 也承认,这些信号仅表达偏好,并不具备强制执行力。同时,公司指出,目前 Markdown 响应默认会包含 Content-Signal: ai-train=yes, search=yes, ai-input=yes。Cloudflare 表示,许多客户已经部署了托管的 robots.txt 文件,允许搜索引擎抓取但禁止用于训练,这表明市场对更细粒度控制的需求正在增长。

 

这一举措也引发了搜索引擎领域人士的质疑。谷歌的 John Mueller 提出疑问:LLM 爬虫是否会将 Markdown 视为普通文本文件,以及是否能正确处理其中的链接与导航结构。他在 Bluesky 上称,将页面转换为 Markdown 专门提供给机器人是一种“愚蠢的想法”,认为这种“扁平化”处理会丢失上下文与结构信息,并指出 LLM 已经能够解析 HTML,甚至可以理解图像内容。

 

出版方在如何应对 AI 抓取问题上也存在分歧。Medium 在 2023 年采取默认禁止用于 AI 训练的政策,更新了服务条款与 robots.txt 来阻止 AI 爬虫,并与 Reuters、The New York Times、CNN 等媒体一样,对 OpenAI 的爬虫实施全站封锁。Medium CEO 表示,AI 公司是在未获得同意或补偿的情况下使用作者内容。Cloudflare 也曾尝试一种“按抓取付费”的模式:向 AI 爬虫返回 HTTP 402(Payment Required)响应。发布者可以选择允许、收费或阻止特定机器人,从而获得内容变现的可能性。

 

随着越来越多的发布者开始封锁 AI 爬虫或探索付费访问模式,围绕同意机制、补偿方式以及技术适配的争论预计将进一步加剧。Markdown-for-Agents 是否会成为广泛采用的标准,还是仅作为一种可选优化存在,将取决于 AI 平台如何响应这些信号,以及发布者是否认为为机器提供“友好格式”具有实际价值。