NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

智源就“抄袭事件”发布最新通报:2 处属于抄袭,已得到原作者谅解,相关责任人均已主动离职

  • 2022-07-18
  • 本文字数:3685 字

    阅读完需:约 12 分钟

智源就“抄袭事件”发布最新通报:2处属于抄袭,已得到原作者谅解,相关责任人均已主动离职

今年 4 月,一篇名为《A Roadmap for Big Model》(大模型路线图)的论文被爆出抄袭,该篇论文中涉及国内 19 家机构和百名 AI 学者,其中不乏业内知名 AI 学术大佬。


事件一出,舆论哗然,也把国内的 AI 学术圈推上了风口浪尖。


作为此篇论文第一单位,北京智源研究院立即对此事做出了积极回应,并邀请第三方专家对此事展开独立调查。智源研究院还就 IEEE 手册条款的理解和抄袭严重程度的认定,通过邮件咨询了 IEEE 学术出版规范负责人的意见。


历时三个月,7 月 15 日,根据CCF调查报告和 IEEE 专家反馈,智源研究院与 16 篇文章的通讯作者进行了沟通,对于存在问题文章的作者责任进行了核查与认定,并将调查和处理情况在官网上进行了通报。


以下为通报全文:

1. 组织失察责任认定

该综述报告由智源研究院大模型研究中心牵头组织、邀请国内外 19 个机构共 100 位科研人员分别撰写的 16 篇独立专题文章组成,每篇文章都有对应的撰写作者和通讯作者(除第 12 篇外),所有作者共同署名整个报告(这种组织模式参考了斯坦福大学“On the Opportunities and Risks of Foundation Models” (https://arxiv.org/pdf/2108.07258v2.pdf) 一文的编撰方式)。综述报告首先上传至预印本网站 arXiv,原计划经过修改完善后再正式出版。


智源研究院大模型研究中心作为组织单位,对综述报告撰写中可能存在的风险隐患缺少充分考虑,未采取必要措施避免相关问题出现,对整个事件负有监督失察责任。


综述报告的第一作者(智源大模型研究中心人员)未严格按照学术出版规范的流程执行,在未与其他作者确认的情况下,于 2022 年 3 月 26 日将综述报告上传至 arXiv,负有主要组织责任。

2. 两处抄袭的责任认定

综述报告 10 处被质疑片段中,2 处属于抄袭。


第 2 篇文章的 2.3.1 节存在共计 179 个单词的多句重复,在最开始明确标注了引用文献,但未明确区别引用文字,且篇幅较大,属于《学术出版规范 期刊学术不端行为界定》“三、论文作者学术不端行为类型”中的 “1.5 文字表述剽窃”:“成段使用他人已发表文献中的文字表述,虽然进行了引注,但对所使用文字不加引号,或者不改变字体,或者不使用特定的排列方式显示”,达到《IEEE 出版物服务和产品委员会操作手册》“对不同等级的抄袭行为进行判定的指南” 中“第 5 级”(认定要点为“对一篇文章的主要部分逐字复制,虽有引注但缺乏清晰区分”。


说明:抄袭共分 5 级,第 1 级最严重,第 5 级最轻微),由该文章的第二作者(智源大模型研究中心人员)完成,应负直接责任。该文章的通讯作者(智源大模型研究中心人员),未对该文章进行有效审查,应负失察责任。该篇文章第 2.4.3 节存在多句重复,有明确参考文献标注,属于规范引用。参与文章的其他作者撰写的部分未发现抄袭


第 8 篇文章的 8.3.1 节存在 74 个单词的整句重复,无明确引用,属于抄袭,相关段落由该文章第一作者(智源大模型研究中心人员)完成,应负直接责任。该文章其他作者是文章初稿完成人,初稿不涉及被质疑内容。该文章第一作者未经通讯作者及其他作者同意将自己加为第一作者并对文章进行了大篇幅修改,文章发布前未与通讯作者确认,因此通讯作者和其他作者均没有责任。


上述两名作者已经按照 IEEE 手册的对应纠正措施向原作者致歉,并得到原作者谅解,履行了应该承担的相关学术责任。

3. 四处引用不规范的责任认定

除前述 2 处抄袭外,综述报告 10 处被质疑片段中,尚有部分片段属于引用不规范,但不构成抄袭,其他被质疑部分属于规范引用。具体认定如下:


第 10 篇文章存在少数重复文字,是在明确添加标注引用参考文献情况下的转述,属于规范引用。


第 12 篇文章的 12.2.3 节存在共计 36 个单词的重复,无整句重复,相关内容由该文章第二作者完成。重复内容包括两个部分,一部分包含 17 个重复单词,属于规范引用参考文献;另一部分包含 19 个重复单词,在对相关领域介绍时,引用了其他论文引言部分对于本领域的总结,但在本句中未标注引用参考文献,属于引用不规范,但不构成抄袭。该文章无通讯作者,其他作者是文章的完成人,所撰写的部分未发现抄袭。


第 14 篇文章 14.2.2 节一处多句 63 个单词重复,有明确参考文献标注,属于规范引用。14.2.3 节一处一句 30 个单词重复,有明确参考文献标注,属于规范引用。14.2.2 节另存在一处一句 29 个单词的重复,文字上指明了引用对象,但本句没有直接添加引用,相关段落由该文章的第二作者完成;14.2.3 节另存在一处一句 27 个单词重复,在 14.2.3 节中有参考文献标注,在本句中没有直接标注,相关段落由该文章的第四作者完成,上述两处属于引用不规范,但不构成抄袭。该文章其他作者撰写的部分未发现抄袭。


第 16 篇文章 16.1 节一处存在多句重复,相关段落由第二作者完成。该段落起始处对参考文献有明确引用,后续其他句子存在本句未直接标注的情形,属于引用不规范,但不构成抄袭。该文章其他作者撰写的部分未发现抄袭。


综述报告第 3、4、5、6、7、9、11、13、15、17 篇文章未发现抄袭。

4. 处理和整改情况通报

智源研究院在质疑发生后,对照国家新闻出版署《学术出版规范 期刊学术不端行文界定》标准并参照《IEEE 出版物服务和产品委员会操作手册》对抄袭的认定指南,从严要求,安排可能存在问题文章的作者向原作者进行了书面致歉,均已得到原作者反馈和谅解。同时,安排第一作者完成从 arXiv 撤稿。上述的抄袭和引用不规范的调查结论也已通知所有作者并获得确认。对照《IEEE 出版物服务和产品委员会操作手册》对抄袭行为的处罚措施,智源研究院和相关责任人已经从严履行了应该承担的相关学术责任。


鉴于上述两处抄袭和组织失察责任人均为智源研究院大模型研究中心人员,智源研究院决定重组该部门,上述相关责任人均已主动离职。


除上述智源研究院相关责任人外,综述报告其他所有作者没有抄袭及学术不端行为。在此对此次事件给这些作者造成的负面影响和困扰表示诚挚歉意!


针对此次事件发现的论文发表流程中的风险漏洞,智源研究院已经整改了论文发表流程,并修订完善了科研诚信与学风建设制度。后续,智源研究院计划与学界和业界合作,制定更严谨的文献引用规范,开发论文和代码开源检测工具和系统,避免再次出现类似问题。

事件回溯

4 月 8 日,谷歌大脑研究员 Nicholas Carlini 发文指出:


我发现了机器学习研究领域发生了一件论文抄袭事件。一篇名为《A Roadmap for Big Model》(以下简称“大模型论文”)的论文,抄袭了我发表的名为《Deduplicating Training Data Makes Language Models Better》的论文中的几个段落 。Nicholas Carlini 表示,更令人沮丧的是,自己发表的论文并不是唯一被抄袭对象,这篇大模型论文至少抄袭了十几篇其他论文。


此外,Nicholas Carlini 还将论文中内容相似度比较高的地方用绿色进行了标注(左侧是大模型论文中的文本,右侧是原始论文中的相应文本):



由于大模型论文最后的署名中涉及 19 家机构和 100 位 AI 领域知名作者,因此此事一出,在国内外学术圈里引发了极高的关注。


针对质疑,4 月 13 日,北京智源人工智能研究院发布了《关于 “A Roadmap for Big Model” 综述报告问题的致歉信》,首先向相关原文作者和学术界、产业界的同仁和朋友致歉,并公布了初步调查结果:


  1. 该报告是一篇大模型领域的综述,希望尽可能涵盖国内外该领域的所有重要文献,由智源研究院牵头,负责框架设计和稿件汇总,并邀请国内外 100 位科研人员分别撰写了 16 篇独立的专题文章,每篇文章分别邀请了一组作者撰写并单独署名,共 200 页。报告发布后,根据反馈持续进行修改完善,到 4 月 2 日在 arXiv 网站上已经更新到第三版。

  2. 4 月 13 日,我们获悉谷歌研究员 Nicholas Carlini 在个人博客上指出该报告抄袭了他们论文的数个段落,同时还有其他段落和语句抄袭其他论文。我们对此进行了逐项核查,经查重确认第 2 篇文章的第 3.1 节 179 个词,第 8 篇文章的第 3.1 节 74 个词、第 12 篇文章的第 2.3 节 55 个词、第 14 篇文章的第 2 节 159 个词、第 16 篇文章的第 1 节 146 个词与其他论文重复,应属抄袭我们决定立即从报告中删除相应内容,报告修订版今天将提交 arXiv 进行更新。目前已通知所有文章的作者对所有内容进行全面审查,后续经严格审核后再发布新版本。

  3. 智源作为该报告的组织者,理应对各篇文章的所有内容进行严格审核,出现这样的问题难辞其咎。对此我们深感自责,特别感谢学术界和媒体的朋友们帮助我们发现问题。我们将深刻吸取教训,整改科研管理和论文发表流程,希望各界朋友监督我们工作。



此外,智源研究院还表示:“确认部分文章存在问题后,已启动邀请第三方专家开展独立审查,并进行相关追责。”


随后,4 月 15 日,智源研究院邀请的第三方专家——中国计算机学会(CCF)组成了调查组,就此事展开独立调查。



历时 3 个月,7 月 15 日,智源在官网通报了调查结果。


至此,此次论文抄袭事件最终以第三方介入、独立开展调查的方式为大众交付了一个公开透明的结果。


参考链接:


https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html


https://www.baai.ac.cn/portal/article/index/cid/5/id/423.html


https://www.baai.ac.cn/portal/article/index/cid/5/id/504.html


https://www.baai.ac.cn/portal/article/index/cid/5/id/422.html

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-07-18 13:373390
用户头像
李冬梅 加V:busulishang4668

发布了 816 篇内容, 共 383.2 次阅读, 收获喜欢 1003 次。

关注

评论

发布
暂无评论
发现更多内容

恒源云(GPUSHARE)_教你如何团队合作搞算力!

恒源云

人工智能 深度学习 云算力

Java 处理表格,真的很爽!

程序员鱼皮

Java

秀出新天际的SpringBoot笔记,让开发像搭积木一样简单

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

这一次,飞书改变「飞书」

ToB行业头条

使用ABAP代码返回S/4HANA Material上维护的Attachment明细

Jerry Wang

SAP S/4HANA 11月日更 Material

Alibaba 新产 SpringCloud Aliababa(全彩第四版)开源

Geek_1df311

Java 编程 架构 微服务

混沌工程:分布式系统稳定性的“疫苗”

中原银行

微服务 云原生 混沌工程

WeTest.net全球能力开放:锻造高品质产品,构建全球竞争力

WeTest

前端避坑指南丨辛辛苦苦开发的APP竟然被判定为简单网页打包?

YonBuilder低代码开发平台

前端如何低门槛开发iOS、Android、小程序多端应用

YonBuilder低代码开发平台

热爱代码且发量惊人,一名反“内卷”研发工程师的日常

尔达Erda

程序员 开发者 技术人生 成长笔记

什么是色彩心理学?

坚果

心理学 11月日更

如何使用SAP CRM Marketing Survey创建一个市场问卷调查

Jerry Wang

SAP abap 11月日更 Survey

图文并茂!你管这破玩意儿叫TCP?

热爱java的分享家

Java TCP 程序人生 编程语言 经验分享

第四范式x英特尔“AI应用与异构内存编程挑战赛”圆满收官

第四范式开发者社区

TDSQL | 数据异常的本质和价值详解

腾讯云数据库

数据库 tdsql

欢迎 Apache ShardingSphere 社区海外新晋 Committer!

SphereEx

开源社区 ShardingSphere SphereEx Committer

Flux 源码之reactor 核心原理及概述

漫游指南

reactor Flux

业务流程建模,你真的做对了吗

明道云

大咖说·未来组织的底层逻辑

大咖说

云计算

人脸识别实战:使用Python OpenCV 和深度学习进行人脸识别

AI浩

人脸识别

金融级数据库新坐标:腾讯云TDSQL发布全自研新敏态引擎

腾讯云数据库

数据库 tdsql

保持清洁的Git提交记录,三招就够了

Geek_1df311

Java 开源 架构 git 学习

TDengine助力顺丰科技大数据监控改造

TDengine

tdengine 时序数据库

Go语言学习查缺补漏ing Day4

Regan Yue

Go 语言 11月日更

TDSQL | HTAP系统的问题与主义之争

腾讯云数据库

数据库 tdsql

打造数字化软件工厂 —— 一站式 DevOps 平台全景解读

CODING DevOps

DevOps 研发管理 CODING

太顶了!华为高工用一份423页的网络协议笔记把计算机网络讲清了

热爱java的分享家

Java 面试 程序人生 网络协议 经验分享

供应链安全隐患迫在眉睫,2021年全球APT攻击暗藏何种趋势?

科技热闻

如果你正在准备面试TCP,看这一篇就够了

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

Docker心经

卫先生

Python 编译器 编译器远程连接docker docker常用命令 docker总结

智源就“抄袭事件”发布最新通报:2处属于抄袭,已得到原作者谅解,相关责任人均已主动离职_AI&大模型_李冬梅_InfoQ精选文章