写点什么

科学家被 ChatGPT 骗了

  • 2023-01-30
    北京
  • 本文字数:1381 字

    阅读完需:约 5 分钟

科学家被ChatGPT骗了

根据最新研究,学者们可能会被 ChatGPT 所欺骗,他们误以为 ChatGPT 生成的虚假科学摘要来自顶级研究期刊上发表的真实医学论文。


本文最初发布于 The Register。

学者难以识别人工智能生成的假论文摘要


近日,美国西北大学领导的一个研究小组使用 OpenAI 开发的文本生成工具,基于一篇真实科学论文的标题,采用五种不同的医学期刊风格生成了 50 篇摘要。


4 名学者参加了一项测试,他们被分为两组,每组两人。测试通过电子抛硬币的方式来决定将人工智能生成的摘要交给每组中的哪一名审核员。如果一名研究人员拿到的是真摘要,那么另一名研究人员拿到的就是假摘要,反之亦然。每个人都审阅了 25 篇科学摘要。


审核员能够识别出 68% 由人工智能生成的假摘要,和 86% 来自真实论文的原始摘要。换句话说,他们被成功欺骗,将 32% 的人工智能生成的摘要识别为真摘要,将 14% 的真摘要识别为假摘要。


该研究的第一作者、西北大学专攻肺病学的医生和科学家 Catherine Gao 说,这表明 ChatGPT 相当有说服力。她在一份声明中写道,“我们的审核员知道他们收到的部分摘要是假的,所以他们非常警惕”。


“事实上,我们的审核员还是在 32% 的时间里漏掉了人工智能生成的摘要,这表明这些摘要真的很好。我估计,如果有人偶然看到了其中一份生成的摘要,那么他们不一定能识别出那是由人工智能写的。”

大型语言模型生成的文本为什么能骗倒众人?


像 ChatGPT 这样的大型语言模型使用从互联网上抓取的大量文本进行训练。经过学习后,它们会通过预测在给定的句子中哪些词更有可能出现来生成文本,而且生成的文本语法准确。这并不奇怪,即使是学者也会上当受骗,相信人工智能生成的摘要是真的。


大型语言模型擅长生成具有清晰结构和模式的文本,科学摘要通常采用类似的格式,而且可能相当模糊。


Gao 说:“我们的审核员评论说,区分真假摘要非常困难。ChatGPT 生成的摘要非常有说服力……当编造数值时,它甚至知道患者群体应该有多大。”例如,一篇关于高血压的假摘要描述了一项有数万名参与者的研究,而一篇关于猴痘的研究涉及的患者则较少。


Gao 认为,像 ChatGPT 这样的工具将使靠出版研究成果获利的造纸厂更容易炮制虚假科学论文。她补充说,“如果其他人试图以这些不正确的研究为基础进行科学研究,那可能真的很危险”。


不过,使用这些工具也有好处。这项研究的合作者、芝加哥大学医学副教授 Alexander Pearson 说,它们可以帮助母语非英语的科学家更好地写作和分享他们的工作。


人工智能比人类更擅长检测机器文本。例如,免费的 GPT-2 输出检测器能够以超过 50% 的置信区间从 50 篇由语言模型生成的论文中猜出 33 篇。研究人员认为,提交的论文应该通过这些探测器的检测,科学家应该公开使用这些工具。


Gao 告诉 The Register,“我们在撰写自己的摘要或手稿时没有使用 ChatGPT,因为这是否可接受在学术界还没有清晰的边界。例如,国际机器学习大会已经制定了一项政策,禁止使用它,不过他们承认,讨论仍在继续,并澄清说,在‘编辑或打磨’时使用是可以的。”


不过,已经有一些团体开始使用它来辅助写作,有些人还把它列为合著者。我认为,使用 ChatGPT 来辅助写作是可以的,重要的是,这样做的时候要明确标示 ChatGPT 辅助编写的那部分手稿。我们将来使用或不使用 LLM 来辅助撰写论文,取决于科学界最终达成的共识。”


原文链接:


https://www.theregister.com/2023/01/11/scientists_chatgpt_papers/

2023-01-30 12:005194

评论 1 条评论

发布
用户头像
AI自动帮小学生写作业
2023-01-31 08:11 · 浙江
回复
没有更多了
发现更多内容

iofod - 新拟物设计的跨平台实践

iofod jude

nft交易平台开发流程

开源直播系统源码

NFT 数字藏品 数字藏品系统

阿里云计算巢软件免费试用中心正式上线,企业用户可免费试用1个月

阿里云弹性计算

计算巢

从工程预算到项目管理,『蓝凌低代码』让房企管理更简单

科技怪咖

Spring Data 测试时的 Repository 提示为空对象

HoneyMoose

有人相爱,有人年少财务自由,有人数据结构都背不出来

浅羽技术

Java 数据结构 队列 红黑树 8月月更

SpringBoot 打包发布

jar Linux SpringBoot 2 8月月更

🔛报名启动!「数智创新行」系列城市站沙龙首站开启

云桌派

转转客户端持续交付—鲁班的构建管理

转转技术团队

CI/CD

Zabbix 监控系统保姆及教程

CTO技术共享

学习 Go 语言数据结构:实现双链表

宇宙之一粟

数据结构 双向链表 8月月更

深势科技创始人&首席科学家张林峰:AI+分子模拟,赋能药物发现新源头

阿里云弹性计算

AI gpu 药物研究 分子模拟

最长字符串链,什么是“词链”?

掘金安东尼

算法 前端 8月月更

Docker下Prometheus和Grafana三部曲之三:自定义监控项开发和配置

程序员欣宸

Grafana Prometheus 8月月更

云原生(二十六) | Kubernetes篇之Kubernetes(k8s)持久化

Lansonli

云原生 k8s 8月月更

[极致用户体验] 如何实现响应式canvas?保持canvas比例?教你让canvas自适应屏幕宽度!

HullQin

CSS JavaScript html 前端 8月月更

软件,英特尔人工智能的未来重点布局

科技之家

头脑风暴:二叉搜索树的最小绝对差

HelloWorld杰少

算法 LeetCode 8月月更

@DataJpaTest 进行测试的坑

HoneyMoose

再深一点:如何给女朋友解释什么是微服务?

浅羽技术

微服务 微服务架构 单体架构 微服务框架 8月月更

超简单!Redis中的持久化策略汇总

知识浅谈

8月月更

项目经理的职能在Scrum框架下没有完全消失

ShineScrum捷行

Scrum 敏捷 项目经理

优秀的程序员不能只懂技术

LigaAI

程序人生 敏捷开发 自我提升 职场发展 企业号九月金秋榜

Nexus 私服Prometheus+Grafana

CTO技术共享

Docker 端口映射重大安全漏洞

CTO技术共享

FFmpeg打开输入文件

mei2022

8月月更

微服务面试必问的Dubbo,这么详细还怕自己找不到工作?

浅羽技术

微服务 dubbo 微服务框架 Dubbo服务 8月月更

蓝凌“智慧云脑”,助力水务、燃气等集团服务民生

科技怪咖

干货|为什么说开源基金会的选择很关键?(上)

Orillusion

开源 WebGL 渲染引擎 webgpu web3d

蓝凌生态OA,重新定义中大型企业数字化办公

科技怪咖

HMS Core Discovery第17期回顾|音随我动,秒变音色造型师

HMS Core

音频技术

科学家被ChatGPT骗了_AI_Katyanna Quach_InfoQ精选文章