阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

科学家被 ChatGPT 骗了

  • 2023-01-30
    北京
  • 本文字数:1381 字

    阅读完需:约 5 分钟

科学家被ChatGPT骗了

根据最新研究,学者们可能会被 ChatGPT 所欺骗,他们误以为 ChatGPT 生成的虚假科学摘要来自顶级研究期刊上发表的真实医学论文。


本文最初发布于 The Register。

学者难以识别人工智能生成的假论文摘要


近日,美国西北大学领导的一个研究小组使用 OpenAI 开发的文本生成工具,基于一篇真实科学论文的标题,采用五种不同的医学期刊风格生成了 50 篇摘要。


4 名学者参加了一项测试,他们被分为两组,每组两人。测试通过电子抛硬币的方式来决定将人工智能生成的摘要交给每组中的哪一名审核员。如果一名研究人员拿到的是真摘要,那么另一名研究人员拿到的就是假摘要,反之亦然。每个人都审阅了 25 篇科学摘要。


审核员能够识别出 68% 由人工智能生成的假摘要,和 86% 来自真实论文的原始摘要。换句话说,他们被成功欺骗,将 32% 的人工智能生成的摘要识别为真摘要,将 14% 的真摘要识别为假摘要。


该研究的第一作者、西北大学专攻肺病学的医生和科学家 Catherine Gao 说,这表明 ChatGPT 相当有说服力。她在一份声明中写道,“我们的审核员知道他们收到的部分摘要是假的,所以他们非常警惕”。


“事实上,我们的审核员还是在 32% 的时间里漏掉了人工智能生成的摘要,这表明这些摘要真的很好。我估计,如果有人偶然看到了其中一份生成的摘要,那么他们不一定能识别出那是由人工智能写的。”

大型语言模型生成的文本为什么能骗倒众人?


像 ChatGPT 这样的大型语言模型使用从互联网上抓取的大量文本进行训练。经过学习后,它们会通过预测在给定的句子中哪些词更有可能出现来生成文本,而且生成的文本语法准确。这并不奇怪,即使是学者也会上当受骗,相信人工智能生成的摘要是真的。


大型语言模型擅长生成具有清晰结构和模式的文本,科学摘要通常采用类似的格式,而且可能相当模糊。


Gao 说:“我们的审核员评论说,区分真假摘要非常困难。ChatGPT 生成的摘要非常有说服力……当编造数值时,它甚至知道患者群体应该有多大。”例如,一篇关于高血压的假摘要描述了一项有数万名参与者的研究,而一篇关于猴痘的研究涉及的患者则较少。


Gao 认为,像 ChatGPT 这样的工具将使靠出版研究成果获利的造纸厂更容易炮制虚假科学论文。她补充说,“如果其他人试图以这些不正确的研究为基础进行科学研究,那可能真的很危险”。


不过,使用这些工具也有好处。这项研究的合作者、芝加哥大学医学副教授 Alexander Pearson 说,它们可以帮助母语非英语的科学家更好地写作和分享他们的工作。


人工智能比人类更擅长检测机器文本。例如,免费的 GPT-2 输出检测器能够以超过 50% 的置信区间从 50 篇由语言模型生成的论文中猜出 33 篇。研究人员认为,提交的论文应该通过这些探测器的检测,科学家应该公开使用这些工具。


Gao 告诉 The Register,“我们在撰写自己的摘要或手稿时没有使用 ChatGPT,因为这是否可接受在学术界还没有清晰的边界。例如,国际机器学习大会已经制定了一项政策,禁止使用它,不过他们承认,讨论仍在继续,并澄清说,在‘编辑或打磨’时使用是可以的。”


不过,已经有一些团体开始使用它来辅助写作,有些人还把它列为合著者。我认为,使用 ChatGPT 来辅助写作是可以的,重要的是,这样做的时候要明确标示 ChatGPT 辅助编写的那部分手稿。我们将来使用或不使用 LLM 来辅助撰写论文,取决于科学界最终达成的共识。”


原文链接:


https://www.theregister.com/2023/01/11/scientists_chatgpt_papers/

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2023-01-30 12:005473

评论 1 条评论

发布
用户头像
AI自动帮小学生写作业
2023-01-31 08:11 · 浙江
回复
没有更多了
发现更多内容

Coinbase或在不久使用Zebec发放工资,并对Web3支付发展寄予厚望

股市老人

喜讯|云起无垠实力入选《2022年度中国数字安全能力图谱》

云起无垠

CAS Fuzzing

数据治理八大优势和四大挑战

用友BIP

一文解读机密容器的崛起和发展

云布道师

龙蜥

Coinbase或在不久使用Zebec发放工资,并对Web3支付赛道发展寄予厚望

鳄鱼视界

数据报告 | 非洲电商市场分析报告

前嗅大数据

数据报告 电商报告

低代码开发平台YonBuilder移动开发,开发阅读APP教程

YonBuilder低代码开发平台

App 低代码 移动开发 阅读 开发.

户外LED显示屏技术

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

教你用JavaScript实现背景图像滑动

小院里的霍大侠

JavaScript 编程入门 实战案例 图像滑动

Coinbase或在不久使用Zebec发放工资,并对Web3支付赛道发展寄予厚望

西柚子

问答知识库快速构建技术解析及行业实践

中关村科金

人工智能 大数据 AI 知识图谱 技术实践

What's new in Dubbo 3.1.4 and 3.2.0-beta.3

Apache Dubbo

Java 开源 微服务 dubbo RPC

云起无垠入选《ISC 2022数字安全创新能力百强》

云起无垠

Coinbase或在不久使用Zebec发放工资,并对Web3支付发展寄予厚望

EOSdreamer111

网易云音乐用户画像资产治理及业务赋能

网易数帆

数据仓库 数据治理 数据资产 12 月 PK 榜

践行开源理念,统信软件开放服务器操作系统UOS V20使用授权

统信软件

操作系统 服务器 国产化 免费

YonBuilder移动开发平台AVM框架 封装滑动单元格组件

YonBuilder低代码开发平台

开发者 后端 移动开发 avm.js AVM

ShineScrum捷行2022年最受欢迎的五篇文章回放

ShineScrum捷行

PO 用户故事 项目经理 PRD 团队工作效率

明道云联合RestCloud打造APaaS+IPaaS融合解决方案

明道云

什么样的CRM,才值得企业为之买单呢

ToB行业头条

Wallys/IPQ4018 12V-56VDCPassive 24V-56V/2*MMCX 27dbm Support MU-MIMO /industrial wifi moudle

wallysmeng

IPQ4018 IPQ4028

V8的垃圾回收和内存限制

千锋IT教育

Java开发如何通过IoT边缘ModuleSDK进行进程应用的开发

华为云开发者联盟

开发 数据处理 华为云 12 月 PK 榜

请求量太大扛不住怎么办?进来学一招

捉虫大师

Go 性能优化

java运算符类型都有哪些

千锋IT教育

Go 中这么多创建 error 的方式,你真的了解它们各自的应用场景吗

Go学堂

golang 开源 程序员 个人成长 12月月更

解读Java内存模型中Happens-Before的8个原则

华为云开发者联盟

Java 开发 华为云 12 月 PK 榜

消除视觉Transformer与卷积神经网络在小数据集上的差距

华为云开发者联盟

人工智能 华为云 12 月 PK 榜

MySQL的数据类型和存储引擎介绍

C++后台开发

MySQL 数据库 中间件 后端开发 存储引擎

Nginx学习笔记(一)HTTP核心配置指令

Starry

浪潮信息正式发布基于龙蜥 Anolis OS 的服务器操作系统 Inspur KOS

OpenAnolis小助手

开源 操作系统 龙蜥社区 浪潮信息 KOS

科学家被ChatGPT骗了_AI&大模型_Katyanna Quach_InfoQ精选文章