Cloudflare 与苏黎世联邦理工学院(ETH Zurich)概述了由 AI 驱动的爬虫流量所带来的运营挑战,并提出了提高内容分发网络(CDN)缓存效率的解决方案。Cloudflare 工程师指出,当前 AI 机器人的流量已超过每周 100 亿次请求,其行为模式与人类浏览行为存在明显的差异。这些模式会影响 CDN 及后端基础设施的延迟、缓存命中率和资源利用率。
Cloudflare 约三分之一的流量来自自动化的源头,包括搜索引擎爬虫、在线状态检测工具和 AI 助手。其中,AI 爬虫最为活跃,在自报为机器人的所有请求中占 80%。这些机器人会发出大量的并行请求,通常会访问鲜少有人访问的页面,或按顺序扫描网站,以支持类似检索增强生成这样的 AI 服务。
AI 爬虫的行为在多个方面与人类浏览行为存在差异。许多 AI 爬虫都保持着高唯一 URL 比率,能够访问多种类型的内容,并且发出的请求无法有效复用缓存的内容。与人类用户不同,AI 爬虫不会利用浏览器缓存或会话连续性,多个独立的实例可能会针对同一内容发送重复的请求。Cloudflare 的模型显示,AI 代理的迭代循环会导致对同一内容的访问量持续居高不下,从而挤占边缘缓存中人类用户频繁请求的内容。
RAG 循环中 70% 至 100% 的唯一访问率,可以解释我最近在微调过程中遇到的缓存翻转现象。在 AI 负载下 LRU 算法失效,这使得德国主机的运行变得难以预测。
AI 流量会增加 CDN 的缓存未命中率,降低“最近最少使用”缓存淘汰、缓存预测和预取等策略的有效性。模拟的 AI 爬虫流量可以导致单个 CDN 节点的缓存命中率明显下降,进而增加了源服务器的负载并延长了响应时间。
科技观察机构 BeePopCommunity 在 X 上说明了 AI 流量对运营造成的广泛影响:
AI 流量打破了系统为人类而建的假设。
Aerospike 首席财务官 Amy Lee 在 LinkedIn上描述了 AI 流量对于数据库的广泛影响:
没错!AI 流量正在打破传统的缓存架构,不仅在 CDN 层,甚至一直延伸到数据库。当 70% 至 100% 的请求 URL 都是唯一的,访问模式就不再具有足够的可预测性,导致无法进行缓存。在满足条件时,大多数数据库都表现良好。而 AI 流量正在系统性地消除这些优化条件。那些能够经受住考验的系统,从一开始就从未依赖于这些条件。我们在 Aerospike 的生产环境中看到了这一点:每秒 100 万至 200 万次的读写混合操作,而且尾部延迟可预测,这已成为常态,而非例外。
为应对这些挑战,Cloudflare 和苏黎世联邦理工学院(ETH Zurich)提出了针对 AI 的缓存策略。这些策略包括将人类流量和 AI 流量划分为不同的缓存层级,测试“最不常使用”或“先入先出”等替换算法,以及探索能够动态适应的基于机器学习的策略。结构化数据源或按爬取次数付费等配套措施,有助于在保持缓存效率的同时控制 AI 的访问权限。Cloudflare 强调,AI 驱动的服务所需的缓存方法与人类流量不同。从这些建议方案中可以看出,为了向人类用户和 AI 代理提供高效的服务,网站有必要进行运营和技术调整以及更新缓存架构。
声明:本文为 InfoQ 翻译,未经许可禁止转载。
原文链接:https://www.infoq.com/news/2026/04/cloudflare-ai-caching-strategies/





