OceaBase开发者大会落地上海!4月20日共同探索数据库前沿趋势!报名戳 了解详情
写点什么

智源就“抄袭事件”发布最新通报:2 处属于抄袭,已得到原作者谅解,相关责任人均已主动离职

  • 2022-07-18
  • 本文字数:3685 字

    阅读完需:约 12 分钟

智源就“抄袭事件”发布最新通报:2处属于抄袭,已得到原作者谅解,相关责任人均已主动离职

今年 4 月,一篇名为《A Roadmap for Big Model》(大模型路线图)的论文被爆出抄袭,该篇论文中涉及国内 19 家机构和百名 AI 学者,其中不乏业内知名 AI 学术大佬。


事件一出,舆论哗然,也把国内的 AI 学术圈推上了风口浪尖。


作为此篇论文第一单位,北京智源研究院立即对此事做出了积极回应,并邀请第三方专家对此事展开独立调查。智源研究院还就 IEEE 手册条款的理解和抄袭严重程度的认定,通过邮件咨询了 IEEE 学术出版规范负责人的意见。


历时三个月,7 月 15 日,根据CCF调查报告和 IEEE 专家反馈,智源研究院与 16 篇文章的通讯作者进行了沟通,对于存在问题文章的作者责任进行了核查与认定,并将调查和处理情况在官网上进行了通报。


以下为通报全文:

1. 组织失察责任认定

该综述报告由智源研究院大模型研究中心牵头组织、邀请国内外 19 个机构共 100 位科研人员分别撰写的 16 篇独立专题文章组成,每篇文章都有对应的撰写作者和通讯作者(除第 12 篇外),所有作者共同署名整个报告(这种组织模式参考了斯坦福大学“On the Opportunities and Risks of Foundation Models” (https://arxiv.org/pdf/2108.07258v2.pdf) 一文的编撰方式)。综述报告首先上传至预印本网站 arXiv,原计划经过修改完善后再正式出版。


智源研究院大模型研究中心作为组织单位,对综述报告撰写中可能存在的风险隐患缺少充分考虑,未采取必要措施避免相关问题出现,对整个事件负有监督失察责任。


综述报告的第一作者(智源大模型研究中心人员)未严格按照学术出版规范的流程执行,在未与其他作者确认的情况下,于 2022 年 3 月 26 日将综述报告上传至 arXiv,负有主要组织责任。

2. 两处抄袭的责任认定

综述报告 10 处被质疑片段中,2 处属于抄袭。


第 2 篇文章的 2.3.1 节存在共计 179 个单词的多句重复,在最开始明确标注了引用文献,但未明确区别引用文字,且篇幅较大,属于《学术出版规范 期刊学术不端行为界定》“三、论文作者学术不端行为类型”中的 “1.5 文字表述剽窃”:“成段使用他人已发表文献中的文字表述,虽然进行了引注,但对所使用文字不加引号,或者不改变字体,或者不使用特定的排列方式显示”,达到《IEEE 出版物服务和产品委员会操作手册》“对不同等级的抄袭行为进行判定的指南” 中“第 5 级”(认定要点为“对一篇文章的主要部分逐字复制,虽有引注但缺乏清晰区分”。


说明:抄袭共分 5 级,第 1 级最严重,第 5 级最轻微),由该文章的第二作者(智源大模型研究中心人员)完成,应负直接责任。该文章的通讯作者(智源大模型研究中心人员),未对该文章进行有效审查,应负失察责任。该篇文章第 2.4.3 节存在多句重复,有明确参考文献标注,属于规范引用。参与文章的其他作者撰写的部分未发现抄袭


第 8 篇文章的 8.3.1 节存在 74 个单词的整句重复,无明确引用,属于抄袭,相关段落由该文章第一作者(智源大模型研究中心人员)完成,应负直接责任。该文章其他作者是文章初稿完成人,初稿不涉及被质疑内容。该文章第一作者未经通讯作者及其他作者同意将自己加为第一作者并对文章进行了大篇幅修改,文章发布前未与通讯作者确认,因此通讯作者和其他作者均没有责任。


上述两名作者已经按照 IEEE 手册的对应纠正措施向原作者致歉,并得到原作者谅解,履行了应该承担的相关学术责任。

3. 四处引用不规范的责任认定

除前述 2 处抄袭外,综述报告 10 处被质疑片段中,尚有部分片段属于引用不规范,但不构成抄袭,其他被质疑部分属于规范引用。具体认定如下:


第 10 篇文章存在少数重复文字,是在明确添加标注引用参考文献情况下的转述,属于规范引用。


第 12 篇文章的 12.2.3 节存在共计 36 个单词的重复,无整句重复,相关内容由该文章第二作者完成。重复内容包括两个部分,一部分包含 17 个重复单词,属于规范引用参考文献;另一部分包含 19 个重复单词,在对相关领域介绍时,引用了其他论文引言部分对于本领域的总结,但在本句中未标注引用参考文献,属于引用不规范,但不构成抄袭。该文章无通讯作者,其他作者是文章的完成人,所撰写的部分未发现抄袭。


第 14 篇文章 14.2.2 节一处多句 63 个单词重复,有明确参考文献标注,属于规范引用。14.2.3 节一处一句 30 个单词重复,有明确参考文献标注,属于规范引用。14.2.2 节另存在一处一句 29 个单词的重复,文字上指明了引用对象,但本句没有直接添加引用,相关段落由该文章的第二作者完成;14.2.3 节另存在一处一句 27 个单词重复,在 14.2.3 节中有参考文献标注,在本句中没有直接标注,相关段落由该文章的第四作者完成,上述两处属于引用不规范,但不构成抄袭。该文章其他作者撰写的部分未发现抄袭。


第 16 篇文章 16.1 节一处存在多句重复,相关段落由第二作者完成。该段落起始处对参考文献有明确引用,后续其他句子存在本句未直接标注的情形,属于引用不规范,但不构成抄袭。该文章其他作者撰写的部分未发现抄袭。


综述报告第 3、4、5、6、7、9、11、13、15、17 篇文章未发现抄袭。

4. 处理和整改情况通报

智源研究院在质疑发生后,对照国家新闻出版署《学术出版规范 期刊学术不端行文界定》标准并参照《IEEE 出版物服务和产品委员会操作手册》对抄袭的认定指南,从严要求,安排可能存在问题文章的作者向原作者进行了书面致歉,均已得到原作者反馈和谅解。同时,安排第一作者完成从 arXiv 撤稿。上述的抄袭和引用不规范的调查结论也已通知所有作者并获得确认。对照《IEEE 出版物服务和产品委员会操作手册》对抄袭行为的处罚措施,智源研究院和相关责任人已经从严履行了应该承担的相关学术责任。


鉴于上述两处抄袭和组织失察责任人均为智源研究院大模型研究中心人员,智源研究院决定重组该部门,上述相关责任人均已主动离职。


除上述智源研究院相关责任人外,综述报告其他所有作者没有抄袭及学术不端行为。在此对此次事件给这些作者造成的负面影响和困扰表示诚挚歉意!


针对此次事件发现的论文发表流程中的风险漏洞,智源研究院已经整改了论文发表流程,并修订完善了科研诚信与学风建设制度。后续,智源研究院计划与学界和业界合作,制定更严谨的文献引用规范,开发论文和代码开源检测工具和系统,避免再次出现类似问题。

事件回溯

4 月 8 日,谷歌大脑研究员 Nicholas Carlini 发文指出:


我发现了机器学习研究领域发生了一件论文抄袭事件。一篇名为《A Roadmap for Big Model》(以下简称“大模型论文”)的论文,抄袭了我发表的名为《Deduplicating Training Data Makes Language Models Better》的论文中的几个段落 。Nicholas Carlini 表示,更令人沮丧的是,自己发表的论文并不是唯一被抄袭对象,这篇大模型论文至少抄袭了十几篇其他论文。


此外,Nicholas Carlini 还将论文中内容相似度比较高的地方用绿色进行了标注(左侧是大模型论文中的文本,右侧是原始论文中的相应文本):



由于大模型论文最后的署名中涉及 19 家机构和 100 位 AI 领域知名作者,因此此事一出,在国内外学术圈里引发了极高的关注。


针对质疑,4 月 13 日,北京智源人工智能研究院发布了《关于 “A Roadmap for Big Model” 综述报告问题的致歉信》,首先向相关原文作者和学术界、产业界的同仁和朋友致歉,并公布了初步调查结果:


  1. 该报告是一篇大模型领域的综述,希望尽可能涵盖国内外该领域的所有重要文献,由智源研究院牵头,负责框架设计和稿件汇总,并邀请国内外 100 位科研人员分别撰写了 16 篇独立的专题文章,每篇文章分别邀请了一组作者撰写并单独署名,共 200 页。报告发布后,根据反馈持续进行修改完善,到 4 月 2 日在 arXiv 网站上已经更新到第三版。

  2. 4 月 13 日,我们获悉谷歌研究员 Nicholas Carlini 在个人博客上指出该报告抄袭了他们论文的数个段落,同时还有其他段落和语句抄袭其他论文。我们对此进行了逐项核查,经查重确认第 2 篇文章的第 3.1 节 179 个词,第 8 篇文章的第 3.1 节 74 个词、第 12 篇文章的第 2.3 节 55 个词、第 14 篇文章的第 2 节 159 个词、第 16 篇文章的第 1 节 146 个词与其他论文重复,应属抄袭我们决定立即从报告中删除相应内容,报告修订版今天将提交 arXiv 进行更新。目前已通知所有文章的作者对所有内容进行全面审查,后续经严格审核后再发布新版本。

  3. 智源作为该报告的组织者,理应对各篇文章的所有内容进行严格审核,出现这样的问题难辞其咎。对此我们深感自责,特别感谢学术界和媒体的朋友们帮助我们发现问题。我们将深刻吸取教训,整改科研管理和论文发表流程,希望各界朋友监督我们工作。



此外,智源研究院还表示:“确认部分文章存在问题后,已启动邀请第三方专家开展独立审查,并进行相关追责。”


随后,4 月 15 日,智源研究院邀请的第三方专家——中国计算机学会(CCF)组成了调查组,就此事展开独立调查。



历时 3 个月,7 月 15 日,智源在官网通报了调查结果。


至此,此次论文抄袭事件最终以第三方介入、独立开展调查的方式为大众交付了一个公开透明的结果。


参考链接:


https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html


https://www.baai.ac.cn/portal/article/index/cid/5/id/423.html


https://www.baai.ac.cn/portal/article/index/cid/5/id/504.html


https://www.baai.ac.cn/portal/article/index/cid/5/id/422.html

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-07-18 13:373378
用户头像
李冬梅 加V:busulishang4668

发布了 807 篇内容, 共 376.1 次阅读, 收获喜欢 998 次。

关注

评论

发布
暂无评论
发现更多内容

使用 Puppet 进行配置管理

码语者

DevOps 配置管理

mysql常用命令

Sakura

震撼来袭!2021版全新版Java面试笔记现世,简直把所有Java知识面试题写出来了

Java 架构 面试

翻译:《实用的Python编程》03_06_Design_discussion

codists

Python

作业 - 第五周

eva

女神节|深情告白季,程序员和他的浪漫

InfoQ写作社区官方

热门活动

VMware Workstation

梅花鹿鹿

虚拟机

【邀请有礼】全球视频云创新挑战赛邀请有礼:参与 100% 获得 “壕” 礼,更有机会获得 JBL 音箱、Cherry 机械键盘

阿里云视频云

阿里云 音视频 比赛

Linkerd or Istio?哪个Service Mesh框架更适合你?

xcbeyond

Service Mesh istio 技术选型 Linkerd 3月日更

用户画像实践

Jackchang234987

政府区块链招投标市场活跃 “区块链+警务”等多元化领域成​方向

CECBC

进程和nginx

一个大红包

28天写作 3月日更

表达的时代

ES_her0

28天写作 3月日更

小树量化交易系统开发|小树炒币机器人软件APP开发

系统开发

当开工季遇上采购季,云通信主播教你怎么省心又省钱

阿里云Edge Plus

云通信

什么是开放艺术?探讨融合区块链技术的新艺术范式

CECBC

2021最新分享面试跳槽宝典:互联网大厂Java高级工程师核心面试498题(附解析)

比伯

Java 编程 程序员 架构 面试

Wireshark数据包分析学习笔记Day2

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

2021最新腾讯面经分享:Java面试刷题PDF(17个专题 5000字解析)

比伯

Java 编程 程序员 架构 面试

自动炒币机器人系统开发|自动炒币机器人APP软件开发

系统开发

程序员成长第二十篇:刚晋升管理者,有哪些方面要注意?

石云升

程序员 28天写作 职场经验 管理经验 3月日更

容器 & 服务:K8s 与 Docker 应用集群 (二)

程序员架构进阶

Docker 持续集成 kubernete 服务化 3月日更

“金三银四”面试别慌!最新阿里P8内部Java面试涨薪秘籍!全网最新已开源

Java架构之路

Java 程序员 架构 面试 编程语言

终于讲清楚了:深入理解Java 应用程序中 final 关键字的各种使用场景

老王说编程

Java final

从JVM底层原理分析数值交换那些事

Java 架构 JVM

JAVA学习心得

张鹤羽

28天写作 3月日更

火币量化交易系统开发|火币炒币机器人软件APP开发

系统开发

融云CEO韩迎:飞信十年珍贵历练,做To B别有取巧的心思

融云 RongCloud

IM RTC 飞信

【回溯算法】组合总和升级版 ...

宫水三叶的刷题日记

面试 LeetCode 数据结构和算法

单点登录(SSO)

一个大红包

SSO 28天写作 单点登录 3月日更

搜狐三面:说说你是怎么解决MySQL死锁问题的!

Java架构师迁哥

智源就“抄袭事件”发布最新通报:2处属于抄袭,已得到原作者谅解,相关责任人均已主动离职_AI&大模型_李冬梅_InfoQ精选文章