写点什么

上百篇 AI“著作”登期刊!ChatGPT 和 Gemini 靠重写论文搞出的仿作,全冒充新研究成功了

  • 2025-09-24
    北京
  • 本文字数:1156 字

    阅读完需:约 4 分钟

大小:562.30K时长:03:11
上百篇AI“著作”登期刊!ChatGPT 和 Gemini靠重写论文搞出的仿作,全冒充新研究成功了

整理 | 华卫

 

近日,对文献数据库的一项分析发现,包括 ChatGPT 和 Gemini 在内的文本生成人工智能(AI)工具,可用于重写科学论文并生成“仿作版”论文,这些仿作随后被当作新研究成果蒙混过关。

 

在 9 月 12 日发布于 medRxiv 平台的一篇预印本论文中,研究人员指出,过去 4 年半里,112 种期刊上发表了 400 多篇此类仿作论文;他们还证实,AI 生成的生物医学领域研究论文能够避开出版商的反剽窃检测。该研究的作者警告称,个人以及“论文工厂”(接受定制、批量生产虚假论文并出售作者署名的公司)可能正利用公开可用的健康数据集,借助大型语言模型(LLMs)批量生成缺乏科学价值的低质量论文。

 

“若不加以干预,这种基于 AI 的操作模式可能会被应用到各类开放获取数据库中,生成的论文数量将远超任何人的想象,”瑞士弗里堡大学的药理学家乔巴·绍博(Csaba Szabó)表示,他并未参与此项研究,“这可能会打开‘潘多拉魔盒’,学术文献恐将充斥着这类人造论文。”

 

为展开调查,研究人员筛选了“关联研究”——即通过统计学方法将某一变量与健康结局关联起来的研究,这类研究的数据均来源于美国国家健康与营养检查调查(NHANES)。NHANES 是一个大型开放数据库,包含数千人的健康、饮食及生活方式相关数据。

 

研究人员将搜索重点放在了他们定义为“冗余”的研究上。这类研究的特点是:其探究的“变量与健康结局关联”和其他已有研究完全一致,但分析的是原始数据中一个细微不同的子集——例如,使用不同调查年份的数据,或聚焦不同年龄、性别的参与者。他们对生物医学文献数据库 PubMed 进行检索后发现,2021 年 1 月至 2025 年 7 月期间共发表了 411 项此类冗余研究。其中大部分是简单的“重复”案例,即两篇内容几乎完全相同的论文。不过,有 3 个“变量-健康结局关联”主题的重复研究数量格外多,每个主题都对应 6 篇论文,且部分论文是在同一年发表的。

 

“这种情况本不应该发生,它对学术文献的健康发展毫无益处,”该研究的合著者、英国吉尔福德萨里大学的生物医学科学家马特·斯皮克(Matt Spick)表示。

 

大多数出版商会采取检测措施,防止研究人员将同一研究成果提交给多家期刊,但斯皮克及其同事怀疑,AI 工具正被用于规避这些检测。

 

为验证 AI 是否能基于同一数据集生成多篇论文,研究人员使用 OpenAI 的聊天机器人 ChatGPT 和谷歌的 Gemini,对其分析中发现的 3 篇冗余度最高的论文(每篇论文所报告的特定“变量-健康结局关联”均已被发表过 5 至 6 次)进行了重写。研究人员向大型语言模型发出指令,要求其利用每篇论文中的信息以及 NHANES 数据集,生成一篇能够避开剽窃检测工具的新论文手稿。

 

“结果立竿见影,这让我们感到震惊,”斯皮克说,“生成的手稿并非完美无缺,大型语言模型也确实制造了一些错误。每篇手稿都需要花两个小时进行修正完善。”

 

参考链接:

https://www.nature.com/articles/d41586-025-03046-z

2025-09-24 10:372555

评论

发布
暂无评论

Hbase内核剖析

永健_何

大数据 HBase 底层技术 分布式数据储存

【面试必备】Swift 面试题及其答案

ios swift

目标岗位差异化对比

Geek_6a8931

红河州加速区块链等新技术与实体经济的深度融合

CECBC

数字经济

测试一下

TJJ

区块链挖矿到底是什么,该怎么挖?

v16629866266

见证产品成长,共享AI力量!

百度大脑

产品思维和产品意识

ALone

谷歌面试题:如何从无序链表中移除重复项?

田维常

面试

架构师训练营第九周作业

zamkai

图解 | 原来这就是TCP

程序员 网络协议 架构师

都在用Kafka ! 消息队列序列化怎么处理?

李尚智

Java kafka 架构 消息队列 消息中间件

软件架构模式之分层架构

架构精进之路

架构设计 七日更 28天写作

想学AI开发很简单:只要你会复制粘贴

华为云开发者联盟

GitHub 开源 AI mindspore 推理

应对新冠病毒传播-粤政协委员建议构建公共卫生区块链平台

CECBC

区块链 公共卫生

重学JS | Set和Map是如何过滤重复值的?

梁龙先森

面试 大前端 编程语言 28天写作

第一周作业-产品备忘录

Eva

LocalDateTime、OffsetDateTime、ZonedDateTime互转,这一篇绝对喂饱你

YourBatman

LocalDateTime OffsetDateTime ZonedDateTime

Java程序员福音!阿里最新产物分布式小册:存储+计算+通信+资源调度

Java架构追梦

Java 阿里巴巴 架构 面试 分布式

Java 程序经验小结: 慎用可变参数

后台技术汇

28天写作

拍乐云技术分享 | 美术教学中视频矫正是怎么做的?

拍乐云Pano

音视频 RTC 图像处理 拍乐云 视频处理

用APICloud开发iOS App Clip(苹果小程序)详细教程

YonBuilder低代码开发平台

小程序云开发 大前端 移动开发 APP开发

老熟人,新朋友!写作平台邀新季!

InfoQ写作社区官方

热门活动

第一章作业

tera

别让假“努力”毁掉了你!面试了10家企业软件测试岗位,面试题整理

程序员阿沐

程序员 面试 软件测试 自动化测试 测试工程师

数据库表数据量大读写缓慢如何优化(3)【Elasticsearch的使用】

我爱娃哈哈😍

大数据 elasticsearch 架构 优化 死磕Elasticsearch

第四周作业

oooh-la

喜讯 | 拍乐云Pano荣获「2020大数据产业创新技术突破」奖

拍乐云Pano

大数据 音视频 RTC 拍乐云

PostgreSQL中Oid和Relfilenode的映射

PostgreSQLChina

数据库 postgresql 开源 软件

高承实:区块链是一个技术结构组织 而不是技术

CECBC

大数据

常见运维监控系统的技术选型

OpsMind

运维 监控系统

上百篇AI“著作”登期刊!ChatGPT 和 Gemini靠重写论文搞出的仿作,全冒充新研究成功了_AI&大模型_华卫_InfoQ精选文章