9月7日-8日,相约 2023 腾讯全球数字生态大会!聚焦产业未来发展新趋势! 了解详情
写点什么

OpenAI 推出网络爬虫 GPTBot,引发网站抵御潮:信息被爬走就很可能意味着永远无法删除

  • 2023-08-10
    北京
  • 本文字数:2577 字

    阅读完需:约 8 分钟

OpenAI 推出网络爬虫 GPTBot,引发网站抵御潮:信息被爬走就很可能意味着永远无法删除

不爬取你的页面数据,哪来几十亿美元的运营收入?

 

OpenAI 在没有正式宣布的情况下,于本周发布了一项网站爬虫规范。

 

网络爬虫通常用于扫描网站内容以训练其大型语言模型 (LLM),OpenAI 在一篇新的博客文章中表示:“使用 GPTBot 用户代理抓取的网页可能会用于改进未来的模型”,特别是 GPT-4 和潜在的 GPT-5。

 


在此之前,OpenAI 刚提交了“GPT-5”商标申请。三周之后,该公司推出了新的爬虫以及使用规范。OpenAI 在博文中表示,内容发布者和网站所有者可以据此拒绝为其提供素材。

 

网站需要加强防御

 

目前还不清楚 OpenAI 的爬虫在网上潜伏了多久,尽管有些人怀疑 OpenAI 可能已经有一个机器人在数月或数年时间里一直在秘密收集每个人的在线数据。现在该公司宣布了一种阻止 GPTBot 的方法,最新发布的技术文档描述了如何通过用户代理令牌和字符串来识别 OpenAI 的网络爬虫 GPTBot。在发送至服务器进行网页请求的 HTTP 标头中,OpenAI 公司的软件会明确使用这些令牌与字符串。

 

因此,内容发布者可以在自己 Web 服务器的 robots.txt 文件中添加新条目,告知爬虫可以做什么、不能做什么。当然,这是假设 GPTBot 会老老实实遵守机器人排除协议,毕竟也有不少机器人会对规则熟视无睹。例如,以下 robts.txt 键/值对就会指示 GPTBot 远离 root 目录和网站上的其他全部内容。

 

User-agent: GPTBot

Disallow: /

 

对此,搜索引擎优化顾问 Prasad Dhumal 本周在 Twitter 上写道:“最后,在吸收了所有受版权保护的内容来构建他们的专有产品之后,OpenAI 为你提供了一种方法来防止你的内容被用来进一步改进他们的产品。”

 

另外,值得注意的是,一旦被大模型爬虫爬取,也意味着你的数据无法从公共数据集中删除。例如比较有名的公共数据集Common Crawl,常被用于训练 OpenAI 的 ChatGPT、谷歌的 Bard 或 Meta 的 LLaMA ,专家表示,如果你的数据或内容被爬取进去,那意味着它永久成为了该训练集的一部分。但 CommonCrawl 等服务确实允许类似的 robots.txt ,但网站所有者需要在数据被收集之前实施这些更改。

 


然而,OpenAI 坚称开放网站数据收集入口,能够帮助该公司提高 AI 模型的实际质量,而且爬取的内容也不会涉及敏感信息。这话似乎可信,毕竟 OpenAI 和微软最近已经因此而官司缠身。

 

这家机器学习超级实验室在文档中指出,“使用 GPTBot 用户代理爬取的网页,可能会被用于改进未来模型,且付费专区、已知涉及个人身份信息(PII)或包含违反我们政策的文本来源均会被过滤删除。”

 

文档还提到,“允许 GPTBot 访问您的网站,可以帮助 AI 模型更加准确并提高其总体功能性与安全性。”

 

这人人为我、我为人人的口号一讲,似乎帮 OpenAI 节约时间和成本,使其模型能力更强、风险更低是件利他又利己的大好事。

 

可即便 OpenAI 承诺了自己在利用公共互联网数据训练大语言模型,仍有不少组织在努力限制自家信息通过网络被自动访问。毕竟 AI 软件厂商最喜欢借助网络上的各种信息为己所为,并借此建立起价值百万甚至数十亿美元的商业体系。所以部分企业已经采取行动,如果盈利一方不愿意拿出点分红,那他们就干脆关闭访问权限。

 

例如,Reddit 最近就修改了 API 条款,想更好地通过用户免费发布的内容获利。Twitter 日前也起诉了四家身份不明的实体,拒绝抓取其网站数据用于 AI 训练的行为。

 

一些网站已经在加强对 GPTBot 的防御,比如外媒The Verge就已经添加了 robots.txt 标志,以阻止 OpenAI 模型抓取内容以添加到其大模型中。substack 博主 Casey Newton 也向他的读者询问是否应该阻止 OpenAI 收集他的内容。科幻杂志 Clarkesworld 的编辑 Neil Clarke Twitter 上宣布将屏蔽 GPTBot。

 


建立合法路径才是正途!

OpenAI 没有立即回应,此次为什么要发布关于 GPTBot 的详细信息。但最近已经有多次针对该公司的诉讼,指控其未经客户许可而擅自使用可公开访问的数据/违反网站规定的许可条款。看来这两件事之间应该存在联系。

 

除了隐私诉讼之外,OpenAI、微软和微软子公司 GitHub 去年 11 月还因涉嫌利用受许可证保护的源代码训练 OpenAI 的 Codex 模型,并因在 GitHub Copilot 代码辅助服务中照搬这些代码而面临起诉。另有多位作家在上个月提起类似诉讼,指控 OpenAI 在未经许可的情况下利用他们的作品训练 ChatGPT。

 

谷歌、DeepMind 及其母公司 Alphabet 也未能幸免,同样因类似理由沦为被告。

 

考虑到爬取公共数据并借此训练 AI 模型所带来的法律不确定性,OpenAI 的竞争对手谷歌上个月提议重新设计爬虫协议的运作方式,尽量消弭愈演愈烈的数据归属权纠纷。

 

专为医疗保健行业提供 AI 助手的 Hyro 公司联合创始人兼 CEO Israel Krush 在采访中表示,目前网络爬虫的运作方式主要存在两个核心问题。

 

“首先就是默认发布者同意,对方如果不希望自己的网站成为爬取对象、信息被用于模型微调,只能主动选择拒绝。这个过程跟搜索引擎的运作方式存在很大区别,搜索引擎在爬取时只会引导用户访问内容发布网站的内容摘要。”

 

“而在 OpenAI 和 AI 助手这边,内容本体成为产品的直接组成部分,这样问题的性质就完全不同了。发布者必须主动拒绝才能免受爬取也着实引起了巨大的不满。”

 

Krush 表示,将爬取到的内容集成至他人产品中、甚至受到篡改,则可能引发另一个潜在问题。

“第二个问题是,OpenAI 在声明中称将排除「以使用个人身份信息(PII)闻名的相关网站」,这样的表述有点令人费解。”

 

“以新闻出版商为例:他们的内容中肯定会存在某些身份识别信息。另外,即使那些似乎跟个人身份信息关系不大的网站,也或多或少涉及相关内容。而任何包含个人身份信息的内容都需要经过适当编辑。”

 

Krush 认为,模型的合规性问题和负责任立场需要匹配更强有力的保障措施,并强调他自己的公司就只会在获得明确许可时才爬取数据,且保证一切个人信息都得到妥善处理。

 

他总结道,“OpenAI 不该只关注那些被标记为包含个人身份信息的网站,而应当假设所有网站都可能涉及个人隐私,特别是各内容发布平台。他们应当采取积极主动的措施,确保爬取的信息不违反合规性要求。”

 

参考链接:

https://platform.openai.com/docs/gptbot

https://twitter.com/prasaddhumal_/status/1688517769158160384?s=20

https://twitter.com/stealcase/status/1688604248974475264

https://www.theregister.com/2023/08/08/openai_scraping_software/?td=rt-9cp

https://venturebeat.com/ai/capital-one-emphasizes-the-power-of-human-centered-design-at-vb-transform-2023/

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2023-08-10 15:354749

评论 1 条评论

发布
用户头像
robots.txt只是个约定,没有gptbot之前也有baidubot、googlebot。网络虽然记性好,但也是会健忘的,如果没有用,数字不如路上的石头活的久,不必困扰。https://github.com/lizongying/go-crawler 基于golang实现的爬虫框架,编写简单,性能强劲。内置了丰富的实用中间件,支持多种解析、保存方式,支持分布式部署。
2023-08-11 17:36 · 北京
回复
没有更多了
发现更多内容

什么是数据产品经理?数据产品经理与传统产品经理有什么区别?

雨果

数据产品经理

一个实际的例子学习 SAP BTP Java 应用的 @Before 注解使用方式

Jerry Wang

Java 云原生 Cloud SAP 10月月更

Java三大特性(一)—封装

共饮一杯无

Java 面向对象 10月月更

如何快速对混合云环境进行安全合规检查

HummerCloud

云安全 上云合规 安全合规检测 10月月更

大数据ELK(二十五):添加Elasticsearch数据源

Lansonli

elasticsearch 10月月更

2022-10-14:以下go语言代码输出什么?A:0;B:7;C:9;D:不能编译。 package main import “fmt“ func main() { a := []int

福大大架构师每日一题

golang 福大大 选择题

什么是Scrum?Scrum的核心要点和精髓

laofo

Scrum 研发效能 敏捷研发

正在消失的机器视觉公司

脑极体

挑战30天学完 Python:Day4数据类型-字符串str

MegaQi

挑战30天学完Python 10月月更

测试需求平台5-Blueprint优化与首个vue页搭建

MegaQi

测试平台开发教程 10月月更

Spring Batch 事务限制

HoneyMoose

Clickhouse:delete提交成功,数据还在

Ken

Clickhouse

有人意图取代SQL,你同意吗?

雨果

sql

跟着卷卷龙一起学Camera--双摄01

卷卷龙

ISP camera 10月月更

树莓派4B安装64位Linux(不用显示器键盘鼠标)

程序员欣宸

树莓派 10月月更

Python进阶(二十三)Django使用pymysql连接MySQL数据库做增删改查

No Silver Bullet

Python django MySQL数据库 pymysql 10月月更

首轮Zepoch节点已售罄完结,你期待次轮吗?

鳄鱼视界

跟着卷卷龙一起学Camera--双摄02

卷卷龙

ISP camera 10月月更

「趣学前端」日常浏览的页面是怎么实现出来的

叶一一

JavaScript 前端 10月月更

PriorityQueue源码解析(一)

知识浅谈

Priority Queue 10月月更

Java基础(六)| Debug模式及基础练习

timerring

Java debug 10月月更

Python进阶(二十二)Python3使用PyMysql连接mysql数据库

No Silver Bullet

Python3 MySQL数据库 pymysql 10月月更

首轮Zepoch节点已售罄完结,你期待次轮吗?

威廉META

Spring之核心容器

楠羽

笔记 SP【ring 10月月更

微信朋友圈架构图

Johnny

架构实战训练营9期

「趣学前端」给不懂技术的朋友简单演示,代码是怎么被编写出来的

叶一一

JavaScript 前端 10月月更

跟着卷卷龙一起学Camera--DNG格式

卷卷龙

ISP camera 10月月更

Spring Batch 可以在一个 Step 中有多个 Tasklet 吗

HoneyMoose

【LeetCode】两个链表的第一个重合节点Java题解

Albert

算法 LeetCode 10月月更

Photoshop软件应用项目(二)

张立梵

设计师 ps 10月月更

「CSS畅想」周期性事情怕忘,来看看一个月内都安排在哪天

叶一一

CSS JavaScript 前端 10月月更

  • 扫码添加小助手
    领取最新资料包
OpenAI 推出网络爬虫 GPTBot,引发网站抵御潮:信息被爬走就很可能意味着永远无法删除_生成式 AI_核子可乐_InfoQ精选文章