写点什么

上百篇 AI“著作”登期刊!ChatGPT 和 Gemini 靠重写论文搞出的仿作,全冒充新研究成功了

  • 2025-09-24
    北京
  • 本文字数:1156 字

    阅读完需:约 4 分钟

大小:562.30K时长:03:11
上百篇AI“著作”登期刊!ChatGPT 和 Gemini靠重写论文搞出的仿作,全冒充新研究成功了

整理 | 华卫

 

近日,对文献数据库的一项分析发现,包括 ChatGPT 和 Gemini 在内的文本生成人工智能(AI)工具,可用于重写科学论文并生成“仿作版”论文,这些仿作随后被当作新研究成果蒙混过关。

 

在 9 月 12 日发布于 medRxiv 平台的一篇预印本论文中,研究人员指出,过去 4 年半里,112 种期刊上发表了 400 多篇此类仿作论文;他们还证实,AI 生成的生物医学领域研究论文能够避开出版商的反剽窃检测。该研究的作者警告称,个人以及“论文工厂”(接受定制、批量生产虚假论文并出售作者署名的公司)可能正利用公开可用的健康数据集,借助大型语言模型(LLMs)批量生成缺乏科学价值的低质量论文。

 

“若不加以干预,这种基于 AI 的操作模式可能会被应用到各类开放获取数据库中,生成的论文数量将远超任何人的想象,”瑞士弗里堡大学的药理学家乔巴·绍博(Csaba Szabó)表示,他并未参与此项研究,“这可能会打开‘潘多拉魔盒’,学术文献恐将充斥着这类人造论文。”

 

为展开调查,研究人员筛选了“关联研究”——即通过统计学方法将某一变量与健康结局关联起来的研究,这类研究的数据均来源于美国国家健康与营养检查调查(NHANES)。NHANES 是一个大型开放数据库,包含数千人的健康、饮食及生活方式相关数据。

 

研究人员将搜索重点放在了他们定义为“冗余”的研究上。这类研究的特点是:其探究的“变量与健康结局关联”和其他已有研究完全一致,但分析的是原始数据中一个细微不同的子集——例如,使用不同调查年份的数据,或聚焦不同年龄、性别的参与者。他们对生物医学文献数据库 PubMed 进行检索后发现,2021 年 1 月至 2025 年 7 月期间共发表了 411 项此类冗余研究。其中大部分是简单的“重复”案例,即两篇内容几乎完全相同的论文。不过,有 3 个“变量-健康结局关联”主题的重复研究数量格外多,每个主题都对应 6 篇论文,且部分论文是在同一年发表的。

 

“这种情况本不应该发生,它对学术文献的健康发展毫无益处,”该研究的合著者、英国吉尔福德萨里大学的生物医学科学家马特·斯皮克(Matt Spick)表示。

 

大多数出版商会采取检测措施,防止研究人员将同一研究成果提交给多家期刊,但斯皮克及其同事怀疑,AI 工具正被用于规避这些检测。

 

为验证 AI 是否能基于同一数据集生成多篇论文,研究人员使用 OpenAI 的聊天机器人 ChatGPT 和谷歌的 Gemini,对其分析中发现的 3 篇冗余度最高的论文(每篇论文所报告的特定“变量-健康结局关联”均已被发表过 5 至 6 次)进行了重写。研究人员向大型语言模型发出指令,要求其利用每篇论文中的信息以及 NHANES 数据集,生成一篇能够避开剽窃检测工具的新论文手稿。

 

“结果立竿见影,这让我们感到震惊,”斯皮克说,“生成的手稿并非完美无缺,大型语言模型也确实制造了一些错误。每篇手稿都需要花两个小时进行修正完善。”

 

参考链接:

https://www.nature.com/articles/d41586-025-03046-z

2025-09-24 10:372744

评论

发布
暂无评论

上海·得物技术沙龙「安全专场」开启报名啦!快来查收你的技术安全白皮书

得物技术

活动

“中国软件杯”重磅预告!首批百度赛题即将发布

飞桨PaddlePaddle

深入理解C++右值引用和移动语义:全面解析

小万哥

后端 开发 C++11 右值引用 移动语义

零基础自学黑客/渗透/网络安全必备知识(详细版),啃完这些足够了

网络安全学海

黑客 网络安全 安全 信息安全 渗透测试

8设计消息队列存储消息数据的 MySQL

KING

用友BIP推动大型企业财务从“价值反映和守护”走向“价值发掘和创造”

用友BIP

智能会计 价值财务

运维训练营第18周作业

好吃不贵

用友BIP丨事项会计,助力企业跻身世界一流

用友BIP

架构训练营 - 模块七作业

Sam

架构实战营

测试用例设计指南

京东科技开发者

软件测试 测试用例

掌握C++中static关键字的多种使用场景

小万哥

c++ 程序员 后端 开发 static

天天预约 | 预约小程序分销功能,最全的操作指南来啦!

天天预约

小程序 SaaS 系统 预约工具 分销

大模型落地比趋势更重要,NLP+金融如何看得见、摸得着?

脑极体

AI金融

ProTradex是链上衍生品领域发展的强力推手

鳄鱼视界

C++编程必备:对象生命周期管理的最佳实践

小万哥

c++ 后端 生命周期 对象模型 RAII

全新升级|ECS成熟度评估与洞察,助你精准定位运维风险

云布道师

ECS

集成Health Kit时因证书问题出现错误码50063的解决方案

HarmonyOS SDK

HMS Core

智能控制 | AIRIOT智慧楼宇管理解决方案

AIRIOT

物联网 智慧楼宇

Last Week in Milvus

Zilliz

非结构化数据 Milvus 向量数据库

三天吃透MongoDB面试八股文

程序员大彬

Java mongodb

贪心算法思想与练习

timerring

贪心算法

MySQL kill会话不起作用?

GreatSQL

MySQL greatsql社区

KubeVela 为 CNCF 孵化器带来软件交付控制平面能力

阿里巴巴中间件

阿里云 开源 云原生 KubeVela

提升数据中心竞争力、公信力-CQC数据中心运维认证

中国IDC圈

认证 #运维

当 GIS 遇到数字化转型|阿里云产业智能

云布道师

GIS 数字化转型

ClickHouse为什么这么快

数新网络官方账号

Clickhouse

当你对 redis 说你中意的女孩是 Mia

京东科技开发者

c++ 数据库 redis 缓存 企业号 3 月 PK 榜

上百篇AI“著作”登期刊!ChatGPT 和 Gemini靠重写论文搞出的仿作,全冒充新研究成功了_AI&大模型_华卫_InfoQ精选文章