写点什么

被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?

  • 2024-12-04
    北京
  • 本文字数:2568 字

    阅读完需:约 8 分钟

大小:1.23M时长:07:09
被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?

整理 | 华卫、核子可乐


刚刚,人工智能顶会 NeurIPS 公布了今年的两篇 Best Paper,其中一篇便是字节跳动团队与北京大学共同提出的新成果,而论文一作是此前因“破坏大模型训练”被字节开除并被要求赔偿公司侵权损失 800 万元及合理支出 2 万元的实习生田柯宇,通讯作者是字节跳动 AI Lab 研究员袁泽寰和王立威。



图源 NeurIPS :https://neurips.cc/virtual/2024/poster/94115


据悉,这篇获奖论文还是进入 Neurips 2024 的第 6 高分论文 (7,8,8,8)。



消息传出不久,AI 圈里便炸开了锅,一众网友都直呼戏剧性,颇有小说“爽文”的味道。



更 drama 的是,昨日有许多论文被录 Oral、 Spotlight 、Poster 的研究者们称收到了来自字节豆包 team 的邮件,邀请他们在 NeurIPS 大会进行现场交流。



网友对于此事的评价则不一,“下一步该是创业了”、“优秀也无法成为作恶的通行证”、“这不是他一个人的 paper”。



“破坏大模型训练”事件前因


整件事最初起源于 10 月网上流传的一则消息:某字节跳动实习生利用 AI 模型共享平台 Hugging Face 的漏洞,往商业化模型中注入破坏代码,牵涉到“8000 多张 H100 的 GPU 集群”、“一个多月的训练结果全是错的”。


10 月 19 日,字节发布公告对这件事进行了澄清,表示确有商业化技术团队实习生发生严重违纪行为,涉事实习生已于 2024 年 8 月被公司辞退,并将其行为同步给行业联盟和所在学校,交由校方处理。


根据字节的澄清公告,涉事实习生恶意干扰的,是商业化技术团队研究项目的模型训练任务,但并不影响商业化的正式项目及线上业务,也不涉及字节跳动大模型等其他业务;网传“涉及 8000 多卡、损失上千万美元”严重夸大。


11 月 5 日,字节还专门发布了面向内部全员的《企业纪律与职业道德委员会通报》,对这件事件进行了更详细地披露。通报称,2024 年 6 月至 7 月,集团商业产品与技术部门前实习员工田某某,因对团队资源分配不满,通过编写、篡改代码等形式恶意攻击团队研究项目的模型训练任务,造成资源损耗。字节方已与其解除实习协议,同步阳光诚信联盟及企业反舞弊联盟,并同步至其就读学校处理。


近日,有消息称,字节已将该实习生诉至法院,并请求法院判令其赔偿公司侵权损失 800 万元及合理支出 2 万元、公开赔礼道歉,北京市海淀区人民法院已受理此案。


而这起事件的当事人田柯宇,其个人的领英主页上一直写着:勿信谣勿传谣。


“获奖成果超越了 transformers 模型


早在今年 4 月,田柯宇的这篇获奖论文成果,就登上了 GitHub 和 Paperwithcode 热度榜单,并受到业内的广泛关注,目前已获得 4.5k 的 Star。


开源代码:https://github.com/FoundationVision/VAR


开源模型:https://huggingface.co/FoundationVision/var



GPT 系列及多种其他自回归大语言模型的出现,预示着 AI 领域已经迎来新的纪元。这些模型在通用性和多功能性方面表现出极强的智能水平,尽管其仍存在幻觉等问题,但仍被认为是向着通用人工智能(AGI)迈出了坚实的一步。


与此同时,计算机视觉领域则一直在努力开发大型自回归模型,VQGAN 和 DALL-E 等开创性项目都展示了自回归模型在图像生成方面的潜力,但这些模型的规模定律仍未得到充分探索,性能也长期显著落后于扩散模型。


与大语言模型的卓越成就相比,自回归模型在计算机视觉领域的作用似乎颇为有限。而该论文提出的视觉自回归建模(VAR)首次使 GPT 类自回归模型在图像生成领域超越了扩散 transformers 模型。


据介绍,该研究重新思考了应如何“排序”图像:人类大多是以分层的方式感知或创作图像,即首先捕捉全局结构,而后捕捉局部细节。这种多尺度、由粗到细的方式表明图像同样具有“顺序”。VAR 代表一种新的范式,尝试将图像领域的自回归学习重新定义为由粗至细的“下一尺度预测”或“下一分辨率预测”,而不再是传统意义上标准的光栅扫描“下一 token 预测”。


其方法先是将图像编码为多尺度 token 图,然后自回归过程从 1 x 1 token 图开始,再逐步扩大分辨率。在每一步中,Transformer 都会根据所有先前的 token 图预测下一个分辨率更高的 token 图。这种更加简单直观的方法,允许自回归(AR)transformers 快速学习视觉分布,且具有良好的泛化能力。


VAR 直接使用类似 GPT-2 的 Transformer 架构进行视觉自回归学习。在 ImageNet 256 x 256 基准测试中,VAR 将 Fréchet 初始距离 (FID) 从 18.65 改进至 1.73,初始得分(IS)从 80.4 提高至 350.2,显著提高了自回归模型基准,且推理速度提高达 20 倍。值得注意的是,VAR 在 FID/IS、数据效率、推理速度及可扩展性方面均超过了 Diffusion Transformer(DiT,Stable Diffusion 3.0 及 Sora 等领先扩散系统的奠基项目)。


对 VAR 模型的扩展也表现出与大语言模型相似的 Scaling Law,其线性相关系数接近 -0.998。VAR 还进一步展现了补图、扩图及编辑等下游任务中的零样本泛化能力。这些结果表明,VAR 已经初步继承了大语言模型的两个重要特性:Scaling Law 与零样本泛化。


被 NeurlPS 收录的含金量


根据 GitHub 上的介绍,今年 9 月,这篇 VAR 的成果论文就被收入 NeurIPS 2024 的 Oral 。一直以来,Oral 被认为是顶会中难度系数较大的论文级别,将会有在 NeurIP 大会做口头报告的机会。


NeurIPS 全称神经信息处理系统大会(The Conference on Neural Information Processing Systems),是人工智能(AI)、机器学习(ML)和数据科学领域最负盛名且最具影响力的会议之一,论文录用及评选标准十分严格。


今年,NeurIPS 一共收到了 15671 篇有效论文投稿,相比去年的 12343 篇增长了 27%,但录用率比去年的 26.1% 还低,仅为 25.8%。被录用论文具体包括 Oral 61 篇(0.39%)、 Spotlight 326 篇(2.08%)、Poster 3650 篇(23.29%),其中评审最低分为 2.2、最高分 8.7。


公开资料显示,田柯宇本科毕业于北京航空航天大学软件学院,研究生就读于北京大学,研究兴趣为深度学习的优化与算法。自 2021 年起,开始在字节跳动实习研究,具体包括超参数优化、强化学习算法、自监督的新型算法。


在此次获评 NeurIPS 的 Best Paper 之前,田柯宇就已经有多篇论文中稿顶会,还多次担任 PR, NeurIPS, ICML, ICLR, CVPR 等期刊会议审稿人。被引次数最多的论文《Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling》,还获得了 ICLR 2023 的 Spotlight。


参考链接:


https://arxiv.org/abs/2404.02905

2024-12-04 16:568670

评论

发布
暂无评论
发现更多内容

直播带货源代码——直播带货系统

开源直播系统源码

直播带货源码 直播带货系统 开源源码

小程序在电商中的优势

Geek_99967b

小程序

哪个年龄段学习web前端培训比较好

小谷哥

小程序容器技术让混合App开发效率提升

Geek_99967b

小程序容器

新一代云原生消息队列 (二)

技术小生

pulsar Apache Pulsar 消息系统 7月月更

洞察数字化转型现状及未来 《中国金融机构数字化转型》白皮书发布

科技热闻

低代码如何构建支持OAuth2.0的后端Web API

葡萄城技术团队

后端 低代码 Oauth

新版网络安全等级保护测评报告模板包含哪些内容?哪里可以找到?

行云管家

等保 等保测评 等保测评报告

Apache Flink ML 2.1.0 发布公告

Apache Flink

机器学习 大数据 flink 流计算 实时计算

【排队助手】投屏模式-使用指南

天天预约

小程序 SaaS 生活服务工具 排队工具 离线提醒

重磅发新 | 尚硅谷C4D三维设计实战教程发布

小谷哥

三证加持,澳鹏中国又获ISO9001及27701认证

澳鹏Appen

隐私保护 ISO 数据安全 质量检测

LeetCode-118. 杨辉三角I(java)

bug菌

Leet Code 7月月更

千亿IT运维市场,来到凭「效果」说话的时代

ToB行业头条

高效实战|航空业海量日志数据的智能化分析

云智慧AIOps社区

运维 数据分析 日志分析 日志管理 运维技术

小程序在产业互联网中的作用

Geek_99967b

小程序

《第四期(2021-2022)传统行业云原生技术落地调研报告——央国企篇》正式发布

York

云原生 数字化转型 国企 央企

公众号关联【排队助手】小程序

天天预约

小程序 工具 SaaS设计 排队

【排队助手】投屏模式-使用指南

天天预约

小程序 SaaS应用 生活服务工具 排队工具

焱融全闪 X NVIDIA InfiniBand:打造 AI 时代 GPU 计算的高性能存储技术

焱融科技

存储 文件存储 分布式文件存储 全闪

如何系统进行学习web前端开发工程师技术

小谷哥

C 语言入门(四)

逝缘~

7月月更

使用百度开发者工具 4.0 搭建专属的小程序 IDE

百度Geek说

ide 开发者工具

金融有底,赋实有数!《中国金融机构数字化转型》白皮书重磅发布

科技热闻

java零基础入门-继承

喵手

Java 7月月更

【云计算】企业上云后需要避免的几个错误

行云管家

云计算 企业上云 堡垒机

软件开发中的DevOps

力软低代码开发平台

Python 入门指南之标准库浏览 – Part II

海拥(haiyong.site)

7月月更

被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?_AI&大模型_华卫_InfoQ精选文章