写点什么

AI 顶会灌水严重,论文疲于赶场,科学研究变味了?

  • 2020-03-26
  • 本文字数:3375 字

    阅读完需:约 11 分钟

AI顶会灌水严重,论文疲于赶场,科学研究变味了?

AI 顶会快成灌水园地了。

顶会论文注水严重

注水、抄袭、造假…这两年,AI 顶会论文学术不端的现象频频出现,令人咋舌。


近日,一位 ICML 审稿人的《自白信》火了,他在信中“怒吼”— 停止向大会提交未完稿的论文!


当我审阅到这些未完稿的论文时,我感受到了来自作者的不尊重。


这位审稿人吐槽,他所审阅的超过一半的投稿都是未完稿的论文,且这些论文存在明显的错误。而审阅这样一篇论文需要花费 6-7 小时,多则 10 多个小时。


在 IJCAI 2020 大会所提交的 5147 篇提交论文中,有 2191 篇论文被拒稿,拒稿率高达 42%,很多论文止步在了 summary reject 阶段,连正式审稿过程都没进入。这意味着有近半数的论文在质量上不达标,水分很大。


去年 11 月,荷兰、瑞士两位学者合著的入选 SIGIR 2019 的论文被指抄袭,部分内容与被 RecSys 2018 收录的一篇论文高度相似,仅改动个别用词,多处语句对比几乎一字不差,很难令人相信这不是抄的。


一位很有自知之明的网友认真总结了“写水论文是一种怎样的体验”,下面的评论,清一色的表示认同“过于真实”。



“有些论文水到不忍直视”,网友 A 君 吐槽道,“吹性能、编算法…论文中很多表述简直在胡扯”。除了包含错误、论文不完整、凑字数等基础性的硬伤,根据知乎上一些大神级网友的总结,一般顶会上的灌水文还经常玩转各种套路,例如,对同一套算法换数据集,同一个问题换模型,把现有的模型/求解方法组合嵌套,优化问题换个 loss、 换个 regularization ,把 2 范数换 1 范数、1 范数换非凸等。


深度学习大神李沐曾这样总结灌水文的特征:小白文一般来说是基于前面的工作,做一点细微的改动,然后有理有据的把结果写下来。这样一方面通过实际动手熟悉这个领域,另一方面练习写作。但从读者的角度来说,这些小白文十有八九是灌水。


他还提到了一组耐人寻味的数据,如果回翻任一顶会前 10 年的论文集,会发现,90%论文的主要是给作者练手,剩下的 9%可能会启发数个人,真正能启发很多人的论文就是那 1%。


曾在学术界深耕多年后投身工业界的 AI 专家郑凛之(化名)对 AI 前线称:


即便是顶会,大部分文章都没有什么实质性创新,这称之为‘Borderline 文章’,这类文章录用有运气的成分在里面。这种碰运气心理也是让很多人去投稿的原因之一。

根源在于科研评价体系机制设置不合理

与论文质量下降形成鲜明对比的是,这几年 AI 顶会的论文规模实质上是不断攀升的。


AI 前线统计发现,ICLR2020 投稿数为 2600 篇,比 2019 年增长 73%,比 2018 年增长 2 倍;IJCAI 2020 投稿论文 5147 篇,比 2019 年增长 8%,比 2018 年增长 48%;NeurIPS 2019 投稿数 6743 篇,比 2018 年增长近 40%;ACL 2019 投稿数近 2700 篇,比 2018 年增加了 75%。


AI 研究热潮带动了顶会论文数量爆发式增长,规模激增后,难免有很多水论文滥竽充数。


NLP 领域专家杨明然(化名)向记者描述了他观察到的一些怪象:


一些人做科研急功近利,工作做的不扎实、不深入,很多问题没有研究或阐释清楚就着急出手,更有甚者错误连篇,文章犹如粗制滥造,对他人形成了误导。


他认为,顶会论文灌水背后与学术界的评审机制、价值取向、社会风气等因素有关。现在很多学校和机构盲目强调期刊、会议等级、论文数量,且新的顶会、期刊层出不穷,论文越收越多。


在上世纪 80-90 年代,一位名校教授到退休时一般研究论文在 30 篇左右,而现在一个刚博士毕业的人年产 20-30 篇论文已如稀松平常,可见搞学术的门槛越来越低了。


唯论文论让很多学生压力山大。如今,在顶会发论文,已成了申博的必要条件之一,对很多学生来说,如果没有在顶会发表过论文,很可能意味着很难继续申请到博士学位,也找不到好的工作。今年 1 月,一位丹麦科技大学的机器学习研究生 Andreas Madsen,因为没有发表过顶会论文,申请博士学位失败找工作也四处碰壁,最终他下定决心闭关了 8 个月,终于成功在顶会上发表了一篇论文。


学术科研变得越来越现实,能够保持纯粹科研初心的学者少之又少了。


只有极少数学者想做真正的研究,大部分人都不热爱研究,只是当作一项工作而已,而业内论文导向又是事实,因此‘刷’论文”成了常态化。


郑凛之还提到国内学术界另一个不少见的现象:有些导师为了自己获得职称或其他学术头衔,要求学生一定要在顶会或者顶级期刊上发表论文,而且第一作者一定要写成导师,否则不予或延期毕业。


今年 2 月,深度学习先驱 Bengio 在自己的博客发文直指当下顶会论文发表模式的弊病 — 被拒再投,一稿多投,大家都在 Dealine 之前疲于赶场。他认为,这种“会议发表”模式对提升研究质量来说弊大于利,迫切需要变革。


杨明然认为,媒体对 AI 的过分炒作也助长了水论文增长。“学研工作一有点噱头,各种媒体就争相报道,完全忽视了领域专家的严格评审,扩大影响力的同时也促进了论文中稿”。


评审人质量下降被认为是顶会论文水化的另一个关键原因。不久前, ICLR 2020 的评审引发争议,在这次大会的审稿人中,有 47% 的人没有在相关领域发表过论文。跨领域审稿,显然无法保证专业度。


现在随着各个 AI 领域细分度增加,找到合适的审稿专家并不容易。有些审稿人仅是硕士水平,甚至很多审稿人并未在顶会发表过论文…香港中文大学助理教授周博磊回顾了自己十年来投稿 CVPR 的经历,他表示,确实感受到会议的审稿意见变得越来越随机,不负责任的审稿人越来越多。


南京大学周志华教授在社交平台发出“警言”,如果投稿量远远大于合格投稿人所能承受的程度,会令顶会逐渐垮塌,或者最终只好回到期刊去了。

灌水风气如何破局?

这些顶会是国内外 AI 学者发表自己研究成果的最高舞台,如果这些上面的论文品控不达标,注水频发,长期以往,必然会透支 AI 顶会的影响力和信任值。做不出创新性的技术研究,也会成为人工智能发展的“绊脚石”。


为了改变注水之风,一些会议已注意到在论文评审机制上做出改进,如设置过滤机制、要求提交源代码等。


IJCAI2020 今年首次引入了 desk reject 机制,SPC 会在 5-10 分钟内通判论文情况,质量不合格的直接过滤掉,这大大减轻了审稿人的压力,但因为在第一阶段就过滤掉了近一半的论文,该机制引起争议,甚至有网友表示要抵制 IJCAI。


“我学生赶 deadline,修改增加了一些文字,时间一着急就提交了,最后论文没审就被‘干’掉了,后来发现是因为论文多了一行,这样的格式问题其实也能理解”,郑凛之觉得 desk reject 机制肯定存在“误杀”的情况,但他认为为防灌水,要改进顶会论文的审稿机制其实挺难的。


评价本身很难客观,一些论文评价机制本身没有错,但执行上却并不容易,实际中就变成了‘数数’。


ICML 2019 、ICLR 、 NeurIPS 等会议也在尝试将增加实验代码和数据作为论文提交的一个选项。此前大部分投稿人并不提供研究源代码,这让复现工作难以实现。2018 年一项针对某 2 个顶会的调查显示,会议上发表的 400 篇 AI 论文,仅 6%的论文包含算法的代码,约 30%包含测试数据,54%包含伪代码。


“要是必须公开代码的话,掺水论文还怎么发表”,要求提交源代码,能在一定程度上减少论文的水分。但到底应不应该提交源代码?


有观点认为,无法复现就没有意义,迟早得强制,只追求高影响因子,不追求高可复现性的学术氛围是时候做出改变了。但也确实存在因为涉及到核心技术、数据所有权等知识产权不能公开的情况。因此综合来看,现阶段,搞“一刀切”强制提交代码不太人性化,但推出一些鼓励机制鼓励公开代码是可以的。


值得一提的是,今年以来,科技部多次发文表示要改进科技评价体系,1 月底,科技部下发通知要求科研人员“把论文写在抗击疫情的第一线,把研究成果应用到战胜疫情中”。


2 月 23 日,科技部正式印发了《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》通知,通知的核心目标是改进科技评价体系,明确要求破除科技评价中过度看重论文数量多少、影响因子高低等“唯论文”不良导向。


变革不是一日之功,学术研究经年累积形成的风气和制度体系可能很难在短时间内改变,正如一位网友所担忧的“副作用”,


评价体系不好改,总不能学校养着一堆教授“摸鱼”吧?

这些改进举措是否有成效还需要时间来验证,但令人欣慰地是,科研评价体系的各个参与方已经在做出努力,期待这些不良学术风气能够在不久的将来有所改善。


最后,借用周博磊教授的一句话作为本文的结语:


保持对科研的敬畏和好奇,这条路才能越走越宽,越走越远。


(应受访人要求,文中人名均为化名)。


2020-03-26 14:256016
用户头像
刘燕 InfoQ高级技术编辑

发布了 1123 篇内容, 共 607.9 次阅读, 收获喜欢 1982 次。

关注

评论

发布
暂无评论
发现更多内容

手把手带你做LiteOS的树莓派移植

华为云开发者联盟

树莓派 系统 LiteOS arm 树莓派移植

网络安全产品之堡垒机应用于金融行业案例讲解

行云管家

云计算 网络安全 等保 堡垒机

英特尔举办第十四届物联网峰会,携手中国生态伙伴迈向融合边缘新时代

科技新消息

J2PaaS 低代码平台,正式发布开源版!

J2PaaS低代码平台

低代码 零代码 低代码开发 低代码开发平台 无代码平台

2.两数相加(链表)

黄敏

自定义View:文字的测量与绘制

Changing Lin

10月月更

阿里P8手抄本惨遭泄露,并出现病毒式传播,致28人斩获大厂offer

收到请回复

Java 面试 阿里 大厂Offer

保持高效学习的 7 个方法

Phoenix

学习方法

这还不够全?阿里P8架构师耗时八年时间才整理出来这“Java核心知识PDF(Java高岗)

Java 程序员 架构 面试 后端

2021云栖大会丨果断收藏!「混合云参会指南」来啦~

人工智能 阿里云 互联网 云栖大会 前沿科技

动态模型之增压暂停【FunTester测试框架】

FunTester

性能测试 接口测试 测试框架 FunTester 动态模型

Zookeeper 集群部署的那些事儿

牧小农

zookeeper

Angular 依赖注入 - 全面解析

PingCode研发中心

angular 依赖注入 对象提供者 注入器 令牌

绝了!Java程序员面试全方位贴身指南,轻松跳槽获取高薪资offer

程序员 架构 面试 后端 java

Qcon 免费报名 | 融云「实时通信技术专场」议题抢鲜看

融云 RongCloud

开发者 通信云 场景化

Linux服务器部署服务

黄敏

拒绝焦虑!Alibaba巨擎随手甩来的一本Java性能优化让我收获满满

Java 架构 面试 程序人生 编程语言

EMQ X VS RabbitMQ:两大消息服务器 MQTT 性能对比全解(下)

EMQ映云科技

RabbitMQ 物联网 IoT mqtt emq

Python代码阅读(第36篇):列表偏移

Felix

Python 编程 Code Programing 阅读代码

智能化如何升级传统厨房烹饪体验?苏泊尔与鸿蒙智联携手交出创新答卷

科技汇

【浪潮云说】直播间第九期今晚20:00准时开播

云计算

EDA 事件驱动架构与 EventBridge 二三事

阿里巴巴云原生

阿里云 云原生 EDA架构 事件驱动型架构

Java集合核心内容之葵花宝面,搞定90%以上的技术面!建议收藏

程序员小呆

Java 程序员 架构师

网易云信 NERTC 高清画质体验之 H.265的工程实践 | 体验共享技术专题

网易云信

Java 测试 音视频 视频

【直播回顾】5步实现精细化用户触达,助力业务增长

极光GPTBots-极光推送

消息推送 用户触达

音视频编解码 -- 编码参数 CRF

RTE开发者社区

ffmpeg 视频编解码 视频压缩 CRF

Android 资源溢出崩溃轻松解

字节跳动终端技术

字节跳动 移动开发 Mars 火山引擎 MARS-APMPlus

惊了!网易架构大牛熬夜手敲千页网络协议笔记,竟在Github上标星百万!

Java 架构 面试 程序人生 编程语言

阿里巨擎耗时六个月整理的这套图解HTTP笔记,在Github上被疯狂转载!

Java 架构 面试 程序人生 编程语言

递推算法与递推套路(算法基础篇)

有道技术团队

算法 大前端 网易有道

Spring Boot 这样的优化,让你的项目飞起来

程序员小呆

Java 程序员 架构师

AI顶会灌水严重,论文疲于赶场,科学研究变味了?_AI&大模型_刘燕_InfoQ精选文章