写点什么

被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?

  • 2024-12-04
    北京
  • 本文字数:2568 字

    阅读完需:约 8 分钟

大小:1.23M时长:07:09
被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?

整理 | 华卫、核子可乐


刚刚,人工智能顶会 NeurIPS 公布了今年的两篇 Best Paper,其中一篇便是字节跳动团队与北京大学共同提出的新成果,而论文一作是此前因“破坏大模型训练”被字节开除并被要求赔偿公司侵权损失 800 万元及合理支出 2 万元的实习生田柯宇,通讯作者是字节跳动 AI Lab 研究员袁泽寰和王立威。



图源 NeurIPS :https://neurips.cc/virtual/2024/poster/94115


据悉,这篇获奖论文还是进入 Neurips 2024 的第 6 高分论文 (7,8,8,8)。



消息传出不久,AI 圈里便炸开了锅,一众网友都直呼戏剧性,颇有小说“爽文”的味道。



更 drama 的是,昨日有许多论文被录 Oral、 Spotlight 、Poster 的研究者们称收到了来自字节豆包 team 的邮件,邀请他们在 NeurIPS 大会进行现场交流。



网友对于此事的评价则不一,“下一步该是创业了”、“优秀也无法成为作恶的通行证”、“这不是他一个人的 paper”。



“破坏大模型训练”事件前因


整件事最初起源于 10 月网上流传的一则消息:某字节跳动实习生利用 AI 模型共享平台 Hugging Face 的漏洞,往商业化模型中注入破坏代码,牵涉到“8000 多张 H100 的 GPU 集群”、“一个多月的训练结果全是错的”。


10 月 19 日,字节发布公告对这件事进行了澄清,表示确有商业化技术团队实习生发生严重违纪行为,涉事实习生已于 2024 年 8 月被公司辞退,并将其行为同步给行业联盟和所在学校,交由校方处理。


根据字节的澄清公告,涉事实习生恶意干扰的,是商业化技术团队研究项目的模型训练任务,但并不影响商业化的正式项目及线上业务,也不涉及字节跳动大模型等其他业务;网传“涉及 8000 多卡、损失上千万美元”严重夸大。


11 月 5 日,字节还专门发布了面向内部全员的《企业纪律与职业道德委员会通报》,对这件事件进行了更详细地披露。通报称,2024 年 6 月至 7 月,集团商业产品与技术部门前实习员工田某某,因对团队资源分配不满,通过编写、篡改代码等形式恶意攻击团队研究项目的模型训练任务,造成资源损耗。字节方已与其解除实习协议,同步阳光诚信联盟及企业反舞弊联盟,并同步至其就读学校处理。


近日,有消息称,字节已将该实习生诉至法院,并请求法院判令其赔偿公司侵权损失 800 万元及合理支出 2 万元、公开赔礼道歉,北京市海淀区人民法院已受理此案。


而这起事件的当事人田柯宇,其个人的领英主页上一直写着:勿信谣勿传谣。


“获奖成果超越了 transformers 模型


早在今年 4 月,田柯宇的这篇获奖论文成果,就登上了 GitHub 和 Paperwithcode 热度榜单,并受到业内的广泛关注,目前已获得 4.5k 的 Star。


开源代码:https://github.com/FoundationVision/VAR


开源模型:https://huggingface.co/FoundationVision/var



GPT 系列及多种其他自回归大语言模型的出现,预示着 AI 领域已经迎来新的纪元。这些模型在通用性和多功能性方面表现出极强的智能水平,尽管其仍存在幻觉等问题,但仍被认为是向着通用人工智能(AGI)迈出了坚实的一步。


与此同时,计算机视觉领域则一直在努力开发大型自回归模型,VQGAN 和 DALL-E 等开创性项目都展示了自回归模型在图像生成方面的潜力,但这些模型的规模定律仍未得到充分探索,性能也长期显著落后于扩散模型。


与大语言模型的卓越成就相比,自回归模型在计算机视觉领域的作用似乎颇为有限。而该论文提出的视觉自回归建模(VAR)首次使 GPT 类自回归模型在图像生成领域超越了扩散 transformers 模型。


据介绍,该研究重新思考了应如何“排序”图像:人类大多是以分层的方式感知或创作图像,即首先捕捉全局结构,而后捕捉局部细节。这种多尺度、由粗到细的方式表明图像同样具有“顺序”。VAR 代表一种新的范式,尝试将图像领域的自回归学习重新定义为由粗至细的“下一尺度预测”或“下一分辨率预测”,而不再是传统意义上标准的光栅扫描“下一 token 预测”。


其方法先是将图像编码为多尺度 token 图,然后自回归过程从 1 x 1 token 图开始,再逐步扩大分辨率。在每一步中,Transformer 都会根据所有先前的 token 图预测下一个分辨率更高的 token 图。这种更加简单直观的方法,允许自回归(AR)transformers 快速学习视觉分布,且具有良好的泛化能力。


VAR 直接使用类似 GPT-2 的 Transformer 架构进行视觉自回归学习。在 ImageNet 256 x 256 基准测试中,VAR 将 Fréchet 初始距离 (FID) 从 18.65 改进至 1.73,初始得分(IS)从 80.4 提高至 350.2,显著提高了自回归模型基准,且推理速度提高达 20 倍。值得注意的是,VAR 在 FID/IS、数据效率、推理速度及可扩展性方面均超过了 Diffusion Transformer(DiT,Stable Diffusion 3.0 及 Sora 等领先扩散系统的奠基项目)。


对 VAR 模型的扩展也表现出与大语言模型相似的 Scaling Law,其线性相关系数接近 -0.998。VAR 还进一步展现了补图、扩图及编辑等下游任务中的零样本泛化能力。这些结果表明,VAR 已经初步继承了大语言模型的两个重要特性:Scaling Law 与零样本泛化。


被 NeurlPS 收录的含金量


根据 GitHub 上的介绍,今年 9 月,这篇 VAR 的成果论文就被收入 NeurIPS 2024 的 Oral 。一直以来,Oral 被认为是顶会中难度系数较大的论文级别,将会有在 NeurIP 大会做口头报告的机会。


NeurIPS 全称神经信息处理系统大会(The Conference on Neural Information Processing Systems),是人工智能(AI)、机器学习(ML)和数据科学领域最负盛名且最具影响力的会议之一,论文录用及评选标准十分严格。


今年,NeurIPS 一共收到了 15671 篇有效论文投稿,相比去年的 12343 篇增长了 27%,但录用率比去年的 26.1% 还低,仅为 25.8%。被录用论文具体包括 Oral 61 篇(0.39%)、 Spotlight 326 篇(2.08%)、Poster 3650 篇(23.29%),其中评审最低分为 2.2、最高分 8.7。


公开资料显示,田柯宇本科毕业于北京航空航天大学软件学院,研究生就读于北京大学,研究兴趣为深度学习的优化与算法。自 2021 年起,开始在字节跳动实习研究,具体包括超参数优化、强化学习算法、自监督的新型算法。


在此次获评 NeurIPS 的 Best Paper 之前,田柯宇就已经有多篇论文中稿顶会,还多次担任 PR, NeurIPS, ICML, ICLR, CVPR 等期刊会议审稿人。被引次数最多的论文《Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling》,还获得了 ICLR 2023 的 Spotlight。


参考链接:


https://arxiv.org/abs/2404.02905

2024-12-04 16:568504

评论

发布
暂无评论
发现更多内容

模糊匹配、相似度查询怎么破?看PG亿级检索毫秒响应

PostgreSQLChina

数据库 postgresql 开源

快递员出售用户信息被判刑:如何防止快递行业信息泄露

石头IT视角

研发团队如何实现无缝协作?

万事ONES

研发管理 团队协作 研发效能 研发工具

差点跳起来了!全靠这份“Java核心知识笔记”我成功拿到美团offer

比伯

Java 程序员 架构 计算机 编写

养猫了!

小林coding

生活

我敢说这是全网最详细的基础讲解,附源码实例,没人学不明白

小Q

Java 学习 架构 面试 基础

波场链智能合约系统定制开发

学习笔记丨数据结构之二叉查找树

Liuchengz.

数据结构 C/C++ 数据结构与算法 高级数据结构

吊!设计模式全解:6大设计原则+23种设计模式+设计模式PK+设计模式混编

Java架构之路

Java 程序员 架构 面试 编程语言

堪称完美!阿里架构师用60个实战案例讲明白了Spring Boot

Java架构追梦

Java 架构 面试 微服务 springboot

dForce挖矿APP系统开发|dForce挖矿软件开发

系统开发

iOS面试基础知识 (四)

iOSer

ios 面试 底层知识

2020中国 .NET开发者大会精彩回顾:葡萄城高性能表格技术解读

葡萄城技术团队

GCExcel 中国 .NET开发者大会 表格技术

震闻:2021年 微服务 即将被这个取代了!!

Java架构师迁哥

编写令人愉悦的API接口(一)

Geek_42915f

Java 程序设计 API APi设计

号称大厂面试官的克星,“神仙版”Java面试宝典,“真”吊打大厂面试官

Java架构之路

Java 程序员 架构 面试 编程语言

微服务架构太难了?那你可能还没掌握SpringBoot+SpringCloud+Docker+RabbitMQ

Java架构之路

Java 程序员 架构 面试 编程语言

软件测试之登录测试详解

测试人生路

软件测试

合约跟单系统开发软件定制

数字货币交易所交易平台系统开发

区块链矿机系统开发现成案例

一场由fork引发的超时,让我们重新探讨了Redis的抖动问题

华为云开发者联盟

redis fork 时延抖动

用了这个评估优化LiteOS镜像利器,我有点飘...

华为云开发者联盟

镜像 开发 环境配置

OTC场外交易系统开发软件定制

区块链商城APP系统开发|区块链商城软件开发

系统开发

腾讯T4架构师:刷3遍以下面试题,你也能从小公司成功跳到大厂

Java架构之路

Java 程序员 架构 面试 编程语言

AWS云上安全最佳实践

雪雷

安全 AWS 云安全

为什么现代系统需要一个新的编程模型?

华为云开发者联盟

编程 模型 语言

提升awk技能的两个教程【译】

程序员架构进阶

Linux Shell awk

惊艳!阿里自爆用480页讲清楚了44种微服务架构设计模式

996小迁

程序员 面试 微服务 设计模式 架构设计

成为分布式系统架构师,都要学哪些东西?该怎么学?

四猿外

Java 程序员 分布式 分布式系统 架构师

被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?_AI&大模型_华卫_InfoQ精选文章