东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

AI 顶会灌水严重,论文疲于赶场,科学研究变味了?

  • 2020-03-26
  • 本文字数:3375 字

    阅读完需:约 11 分钟

AI顶会灌水严重,论文疲于赶场,科学研究变味了?

AI 顶会快成灌水园地了。

顶会论文注水严重

注水、抄袭、造假…这两年,AI 顶会论文学术不端的现象频频出现,令人咋舌。


近日,一位 ICML 审稿人的《自白信》火了,他在信中“怒吼”— 停止向大会提交未完稿的论文!


当我审阅到这些未完稿的论文时,我感受到了来自作者的不尊重。


这位审稿人吐槽,他所审阅的超过一半的投稿都是未完稿的论文,且这些论文存在明显的错误。而审阅这样一篇论文需要花费 6-7 小时,多则 10 多个小时。


在 IJCAI 2020 大会所提交的 5147 篇提交论文中,有 2191 篇论文被拒稿,拒稿率高达 42%,很多论文止步在了 summary reject 阶段,连正式审稿过程都没进入。这意味着有近半数的论文在质量上不达标,水分很大。


去年 11 月,荷兰、瑞士两位学者合著的入选 SIGIR 2019 的论文被指抄袭,部分内容与被 RecSys 2018 收录的一篇论文高度相似,仅改动个别用词,多处语句对比几乎一字不差,很难令人相信这不是抄的。


一位很有自知之明的网友认真总结了“写水论文是一种怎样的体验”,下面的评论,清一色的表示认同“过于真实”。



“有些论文水到不忍直视”,网友 A 君 吐槽道,“吹性能、编算法…论文中很多表述简直在胡扯”。除了包含错误、论文不完整、凑字数等基础性的硬伤,根据知乎上一些大神级网友的总结,一般顶会上的灌水文还经常玩转各种套路,例如,对同一套算法换数据集,同一个问题换模型,把现有的模型/求解方法组合嵌套,优化问题换个 loss、 换个 regularization ,把 2 范数换 1 范数、1 范数换非凸等。


深度学习大神李沐曾这样总结灌水文的特征:小白文一般来说是基于前面的工作,做一点细微的改动,然后有理有据的把结果写下来。这样一方面通过实际动手熟悉这个领域,另一方面练习写作。但从读者的角度来说,这些小白文十有八九是灌水。


他还提到了一组耐人寻味的数据,如果回翻任一顶会前 10 年的论文集,会发现,90%论文的主要是给作者练手,剩下的 9%可能会启发数个人,真正能启发很多人的论文就是那 1%。


曾在学术界深耕多年后投身工业界的 AI 专家郑凛之(化名)对 AI 前线称:


即便是顶会,大部分文章都没有什么实质性创新,这称之为‘Borderline 文章’,这类文章录用有运气的成分在里面。这种碰运气心理也是让很多人去投稿的原因之一。

根源在于科研评价体系机制设置不合理

与论文质量下降形成鲜明对比的是,这几年 AI 顶会的论文规模实质上是不断攀升的。


AI 前线统计发现,ICLR2020 投稿数为 2600 篇,比 2019 年增长 73%,比 2018 年增长 2 倍;IJCAI 2020 投稿论文 5147 篇,比 2019 年增长 8%,比 2018 年增长 48%;NeurIPS 2019 投稿数 6743 篇,比 2018 年增长近 40%;ACL 2019 投稿数近 2700 篇,比 2018 年增加了 75%。


AI 研究热潮带动了顶会论文数量爆发式增长,规模激增后,难免有很多水论文滥竽充数。


NLP 领域专家杨明然(化名)向记者描述了他观察到的一些怪象:


一些人做科研急功近利,工作做的不扎实、不深入,很多问题没有研究或阐释清楚就着急出手,更有甚者错误连篇,文章犹如粗制滥造,对他人形成了误导。


他认为,顶会论文灌水背后与学术界的评审机制、价值取向、社会风气等因素有关。现在很多学校和机构盲目强调期刊、会议等级、论文数量,且新的顶会、期刊层出不穷,论文越收越多。


在上世纪 80-90 年代,一位名校教授到退休时一般研究论文在 30 篇左右,而现在一个刚博士毕业的人年产 20-30 篇论文已如稀松平常,可见搞学术的门槛越来越低了。


唯论文论让很多学生压力山大。如今,在顶会发论文,已成了申博的必要条件之一,对很多学生来说,如果没有在顶会发表过论文,很可能意味着很难继续申请到博士学位,也找不到好的工作。今年 1 月,一位丹麦科技大学的机器学习研究生 Andreas Madsen,因为没有发表过顶会论文,申请博士学位失败找工作也四处碰壁,最终他下定决心闭关了 8 个月,终于成功在顶会上发表了一篇论文。


学术科研变得越来越现实,能够保持纯粹科研初心的学者少之又少了。


只有极少数学者想做真正的研究,大部分人都不热爱研究,只是当作一项工作而已,而业内论文导向又是事实,因此‘刷’论文”成了常态化。


郑凛之还提到国内学术界另一个不少见的现象:有些导师为了自己获得职称或其他学术头衔,要求学生一定要在顶会或者顶级期刊上发表论文,而且第一作者一定要写成导师,否则不予或延期毕业。


今年 2 月,深度学习先驱 Bengio 在自己的博客发文直指当下顶会论文发表模式的弊病 — 被拒再投,一稿多投,大家都在 Dealine 之前疲于赶场。他认为,这种“会议发表”模式对提升研究质量来说弊大于利,迫切需要变革。


杨明然认为,媒体对 AI 的过分炒作也助长了水论文增长。“学研工作一有点噱头,各种媒体就争相报道,完全忽视了领域专家的严格评审,扩大影响力的同时也促进了论文中稿”。


评审人质量下降被认为是顶会论文水化的另一个关键原因。不久前, ICLR 2020 的评审引发争议,在这次大会的审稿人中,有 47% 的人没有在相关领域发表过论文。跨领域审稿,显然无法保证专业度。


现在随着各个 AI 领域细分度增加,找到合适的审稿专家并不容易。有些审稿人仅是硕士水平,甚至很多审稿人并未在顶会发表过论文…香港中文大学助理教授周博磊回顾了自己十年来投稿 CVPR 的经历,他表示,确实感受到会议的审稿意见变得越来越随机,不负责任的审稿人越来越多。


南京大学周志华教授在社交平台发出“警言”,如果投稿量远远大于合格投稿人所能承受的程度,会令顶会逐渐垮塌,或者最终只好回到期刊去了。

灌水风气如何破局?

这些顶会是国内外 AI 学者发表自己研究成果的最高舞台,如果这些上面的论文品控不达标,注水频发,长期以往,必然会透支 AI 顶会的影响力和信任值。做不出创新性的技术研究,也会成为人工智能发展的“绊脚石”。


为了改变注水之风,一些会议已注意到在论文评审机制上做出改进,如设置过滤机制、要求提交源代码等。


IJCAI2020 今年首次引入了 desk reject 机制,SPC 会在 5-10 分钟内通判论文情况,质量不合格的直接过滤掉,这大大减轻了审稿人的压力,但因为在第一阶段就过滤掉了近一半的论文,该机制引起争议,甚至有网友表示要抵制 IJCAI。


“我学生赶 deadline,修改增加了一些文字,时间一着急就提交了,最后论文没审就被‘干’掉了,后来发现是因为论文多了一行,这样的格式问题其实也能理解”,郑凛之觉得 desk reject 机制肯定存在“误杀”的情况,但他认为为防灌水,要改进顶会论文的审稿机制其实挺难的。


评价本身很难客观,一些论文评价机制本身没有错,但执行上却并不容易,实际中就变成了‘数数’。


ICML 2019 、ICLR 、 NeurIPS 等会议也在尝试将增加实验代码和数据作为论文提交的一个选项。此前大部分投稿人并不提供研究源代码,这让复现工作难以实现。2018 年一项针对某 2 个顶会的调查显示,会议上发表的 400 篇 AI 论文,仅 6%的论文包含算法的代码,约 30%包含测试数据,54%包含伪代码。


“要是必须公开代码的话,掺水论文还怎么发表”,要求提交源代码,能在一定程度上减少论文的水分。但到底应不应该提交源代码?


有观点认为,无法复现就没有意义,迟早得强制,只追求高影响因子,不追求高可复现性的学术氛围是时候做出改变了。但也确实存在因为涉及到核心技术、数据所有权等知识产权不能公开的情况。因此综合来看,现阶段,搞“一刀切”强制提交代码不太人性化,但推出一些鼓励机制鼓励公开代码是可以的。


值得一提的是,今年以来,科技部多次发文表示要改进科技评价体系,1 月底,科技部下发通知要求科研人员“把论文写在抗击疫情的第一线,把研究成果应用到战胜疫情中”。


2 月 23 日,科技部正式印发了《关于破除科技评价中“唯论文”不良导向的若干措施(试行)》通知,通知的核心目标是改进科技评价体系,明确要求破除科技评价中过度看重论文数量多少、影响因子高低等“唯论文”不良导向。


变革不是一日之功,学术研究经年累积形成的风气和制度体系可能很难在短时间内改变,正如一位网友所担忧的“副作用”,


评价体系不好改,总不能学校养着一堆教授“摸鱼”吧?

这些改进举措是否有成效还需要时间来验证,但令人欣慰地是,科研评价体系的各个参与方已经在做出努力,期待这些不良学术风气能够在不久的将来有所改善。


最后,借用周博磊教授的一句话作为本文的结语:


保持对科研的敬畏和好奇,这条路才能越走越宽,越走越远。


(应受访人要求,文中人名均为化名)。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2020-03-26 14:254051
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 492.4 次阅读, 收获喜欢 1966 次。

关注

评论

发布
暂无评论
发现更多内容

企业不可忽视的三大关键时刻

石云升

管理经验 关键时刻 体验设计 8月日更

基于时间和窗口的算子(六)

数据与智能

flink 窗口函数 算子

仿imtoken钱包源码,TP钱包源码开发

Ipfs靠谱吗?ipfs中国授权公司都有哪些?

分布式存储 区块链+ IPFS fil

fil矿机怎么购买?fil矿机在哪买?

fil矿机怎么购买 fil矿机在哪买

LeetCode题解:80. 删除有序数组中的重复项 II,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

写作 7 堂课——【6. 清单式写作】

LeifChen

清单 写作技巧 8月日更 检查清单

「独立思考」的背后是一个残酷的世界

非著名程序员

提升认知 个人提升 独立思考 8月日更

融云CTO杨攀:把握核心技术,促进产学研用融合发展

融云 RongCloud

聊聊 PC 端自动化最佳方案 - WinAppDriver

星安果

Python 自动化 WinAppDriver

【前端 · 面试 】HTTP 总结(十一)—— HTTPS 概述

编程三昧

面试 https 8月日更

MySQL知识点整理

一个大红包

8月日更

数据缓存历险记(五)--LRU缓存算法的最终篇

卢卡多多

缓存 LRU Redis 协议 8月日更

趁着课余时间学点Python(十)面向对象的理解(前奏)

ベ布小禅

8月日更

区块链难懂?人民日报评论员讲给你听

CECBC

记一次PHP渗透测试实战教程

网络安全学海

php 网络安全 信息安全 渗透测试 安全漏洞

ipfs矿机挖币哪家最好?ipfs矿机公司实力排行如何?

ipfs矿机挖币哪家最好 ipfs矿机公司实力排行如何

新药开发瓶颈问题或将被打破,北鲲云超算平台开启药物研发“加速度”

北鲲云

从新手村出来,我在 Apache APISIX 社区发出了第一个 PR

API7.ai 技术团队

开源 后端 API网关 APISIX

RESTful API

escray

学习 极客时间 如何落地业务建模 8月日更

网络攻防学习笔记 Day102

穿过生命散发芬芳

态势感知 网络攻防 8月日更

手把手 Golang 实现静态图像与视频流人脸识别

声网

音视频 人脸识别

🏆「作者推荐」【JVM 性能调优】JVM分析与调优技巧分析(原理篇)

洛神灬殇

JVM JVm虚拟机 8月日更

前端之算法(一)

Augus

数据结构与算法 8月日更

端口占用解决方案

一个大红包

8月日更

异步编程的终极解决方案 async/await:用同步的方式去写异步代码

前端依依

大前端 js 经验分享 异步 知识讲解

使用FL studio中文版进行音乐合并和剪切

懒得勤快

CSS 文档中定位指南:static、relative、absolute、fixed、sticky

devpoint

CSS 8月日更

DeFi去中心化平台源码开发|智能合约系统搭建

量化系统19942438797

用区块链加强知识产权保护

CECBC

从安卓转到Java开发,我吃透了这份pdf,终于4面拿下美团offer

Java~~~

Java spring 面试 微服务 JVM

AI顶会灌水严重,论文疲于赶场,科学研究变味了?_AI&大模型_刘燕_InfoQ精选文章