2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?

  • 2024-12-04
    北京
  • 本文字数:2568 字

    阅读完需:约 8 分钟

大小:1.23M时长:07:09
被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?

整理 | 华卫、核子可乐


刚刚,人工智能顶会 NeurIPS 公布了今年的两篇 Best Paper,其中一篇便是字节跳动团队与北京大学共同提出的新成果,而论文一作是此前因“破坏大模型训练”被字节开除并被要求赔偿公司侵权损失 800 万元及合理支出 2 万元的实习生田柯宇,通讯作者是字节跳动 AI Lab 研究员袁泽寰和王立威。



图源 NeurIPS :https://neurips.cc/virtual/2024/poster/94115


据悉,这篇获奖论文还是进入 Neurips 2024 的第 6 高分论文 (7,8,8,8)。



消息传出不久,AI 圈里便炸开了锅,一众网友都直呼戏剧性,颇有小说“爽文”的味道。



更 drama 的是,昨日有许多论文被录 Oral、 Spotlight 、Poster 的研究者们称收到了来自字节豆包 team 的邮件,邀请他们在 NeurIPS 大会进行现场交流。



网友对于此事的评价则不一,“下一步该是创业了”、“优秀也无法成为作恶的通行证”、“这不是他一个人的 paper”。



“破坏大模型训练”事件前因


整件事最初起源于 10 月网上流传的一则消息:某字节跳动实习生利用 AI 模型共享平台 Hugging Face 的漏洞,往商业化模型中注入破坏代码,牵涉到“8000 多张 H100 的 GPU 集群”、“一个多月的训练结果全是错的”。


10 月 19 日,字节发布公告对这件事进行了澄清,表示确有商业化技术团队实习生发生严重违纪行为,涉事实习生已于 2024 年 8 月被公司辞退,并将其行为同步给行业联盟和所在学校,交由校方处理。


根据字节的澄清公告,涉事实习生恶意干扰的,是商业化技术团队研究项目的模型训练任务,但并不影响商业化的正式项目及线上业务,也不涉及字节跳动大模型等其他业务;网传“涉及 8000 多卡、损失上千万美元”严重夸大。


11 月 5 日,字节还专门发布了面向内部全员的《企业纪律与职业道德委员会通报》,对这件事件进行了更详细地披露。通报称,2024 年 6 月至 7 月,集团商业产品与技术部门前实习员工田某某,因对团队资源分配不满,通过编写、篡改代码等形式恶意攻击团队研究项目的模型训练任务,造成资源损耗。字节方已与其解除实习协议,同步阳光诚信联盟及企业反舞弊联盟,并同步至其就读学校处理。


近日,有消息称,字节已将该实习生诉至法院,并请求法院判令其赔偿公司侵权损失 800 万元及合理支出 2 万元、公开赔礼道歉,北京市海淀区人民法院已受理此案。


而这起事件的当事人田柯宇,其个人的领英主页上一直写着:勿信谣勿传谣。


“获奖成果超越了 transformers 模型


早在今年 4 月,田柯宇的这篇获奖论文成果,就登上了 GitHub 和 Paperwithcode 热度榜单,并受到业内的广泛关注,目前已获得 4.5k 的 Star。


开源代码:https://github.com/FoundationVision/VAR


开源模型:https://huggingface.co/FoundationVision/var



GPT 系列及多种其他自回归大语言模型的出现,预示着 AI 领域已经迎来新的纪元。这些模型在通用性和多功能性方面表现出极强的智能水平,尽管其仍存在幻觉等问题,但仍被认为是向着通用人工智能(AGI)迈出了坚实的一步。


与此同时,计算机视觉领域则一直在努力开发大型自回归模型,VQGAN 和 DALL-E 等开创性项目都展示了自回归模型在图像生成方面的潜力,但这些模型的规模定律仍未得到充分探索,性能也长期显著落后于扩散模型。


与大语言模型的卓越成就相比,自回归模型在计算机视觉领域的作用似乎颇为有限。而该论文提出的视觉自回归建模(VAR)首次使 GPT 类自回归模型在图像生成领域超越了扩散 transformers 模型。


据介绍,该研究重新思考了应如何“排序”图像:人类大多是以分层的方式感知或创作图像,即首先捕捉全局结构,而后捕捉局部细节。这种多尺度、由粗到细的方式表明图像同样具有“顺序”。VAR 代表一种新的范式,尝试将图像领域的自回归学习重新定义为由粗至细的“下一尺度预测”或“下一分辨率预测”,而不再是传统意义上标准的光栅扫描“下一 token 预测”。


其方法先是将图像编码为多尺度 token 图,然后自回归过程从 1 x 1 token 图开始,再逐步扩大分辨率。在每一步中,Transformer 都会根据所有先前的 token 图预测下一个分辨率更高的 token 图。这种更加简单直观的方法,允许自回归(AR)transformers 快速学习视觉分布,且具有良好的泛化能力。


VAR 直接使用类似 GPT-2 的 Transformer 架构进行视觉自回归学习。在 ImageNet 256 x 256 基准测试中,VAR 将 Fréchet 初始距离 (FID) 从 18.65 改进至 1.73,初始得分(IS)从 80.4 提高至 350.2,显著提高了自回归模型基准,且推理速度提高达 20 倍。值得注意的是,VAR 在 FID/IS、数据效率、推理速度及可扩展性方面均超过了 Diffusion Transformer(DiT,Stable Diffusion 3.0 及 Sora 等领先扩散系统的奠基项目)。


对 VAR 模型的扩展也表现出与大语言模型相似的 Scaling Law,其线性相关系数接近 -0.998。VAR 还进一步展现了补图、扩图及编辑等下游任务中的零样本泛化能力。这些结果表明,VAR 已经初步继承了大语言模型的两个重要特性:Scaling Law 与零样本泛化。


被 NeurlPS 收录的含金量


根据 GitHub 上的介绍,今年 9 月,这篇 VAR 的成果论文就被收入 NeurIPS 2024 的 Oral 。一直以来,Oral 被认为是顶会中难度系数较大的论文级别,将会有在 NeurIP 大会做口头报告的机会。


NeurIPS 全称神经信息处理系统大会(The Conference on Neural Information Processing Systems),是人工智能(AI)、机器学习(ML)和数据科学领域最负盛名且最具影响力的会议之一,论文录用及评选标准十分严格。


今年,NeurIPS 一共收到了 15671 篇有效论文投稿,相比去年的 12343 篇增长了 27%,但录用率比去年的 26.1% 还低,仅为 25.8%。被录用论文具体包括 Oral 61 篇(0.39%)、 Spotlight 326 篇(2.08%)、Poster 3650 篇(23.29%),其中评审最低分为 2.2、最高分 8.7。


公开资料显示,田柯宇本科毕业于北京航空航天大学软件学院,研究生就读于北京大学,研究兴趣为深度学习的优化与算法。自 2021 年起,开始在字节跳动实习研究,具体包括超参数优化、强化学习算法、自监督的新型算法。


在此次获评 NeurIPS 的 Best Paper 之前,田柯宇就已经有多篇论文中稿顶会,还多次担任 PR, NeurIPS, ICML, ICLR, CVPR 等期刊会议审稿人。被引次数最多的论文《Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling》,还获得了 ICLR 2023 的 Spotlight。


参考链接:


https://arxiv.org/abs/2404.02905

2024-12-04 16:568714

评论

发布
暂无评论
发现更多内容

安全灵活,华为云桌面成为数字化办公最佳搭档

清欢科技

2022年最有价值书单

月亮上的六便士

好书推荐

存量时代下 用低代码开发平台提升你的CEM

力软低代码开发平台

开源创新 源起潮“蜥”——龙蜥社区走进浪潮信息 MeetUp 即将开幕

OpenAnolis小助手

云原生 Meetup 龙蜥社区 浪潮信息 开源活动

超高清设计师云工作站,设计可以更高效

清欢科技

灵活、高效、可靠,华为云桌面想用户所想!

与时俱进的时代

华为云桌面,为企业数字化办公添砖加瓦!

科技怪授

致力程序员成长,阿里大佬“亲码”Java全栈架构笔记,差距不止一点点

程序员小毕

程序员 程序人生 后端 架构师 java面试

2022 卡塔尔世界杯收官,中国 App 继续中东「征战」

融云 RongCloud

App

重磅 | 九科信息入选“第一新声”2022年中国RPA行业优秀厂商图谱

九科Ninetech

webAssembly on server side 的应用场景

磊吐槽

云原生 webassembly

华为云会议好评如潮的背后,竟然暗藏这么多黑科技!

科技说

华为云会议助力政企用户提升沟通效率

科技说

华为云Workspace树立云服务模式新标杆

科技怪授

华为云桌面Workspace,如何让用户安全高效云上办公?

科技怪授

gitlab ldap配置

阿呆

gitlab ldap

居家办公正确的打开方式——华为云桌面

与时俱进的时代

上云合作伙伴,华为云桌面致力打造优质云上办公生态

与时俱进的时代

简单易用的监控告警系统 | HertzBeat 在 Rainbond 上的使用分享

北京好雨科技有限公司

有奖征文活动:从 RTC 到 RTE,从音视频到「实时万象」!

声网

人工智能 音视频

集团型企业主数据管理框架、方法

用友BIP

Go Gorm Sqlite3 CreateInBatches 报错:too many SQL variable 排查与解决

非晓为骁

Go gorm sqlite3 CreateInBatches

What's new in dubbo-go v3.0.4

apache/dubbo-go

dubbo Dubbo服务 Dubbo网关

「实操」适配 NebulaGraph 新版本与压测实践

NebulaGraph

图数据库

华为云会议,总有一种场景满足你的需求

科技说

华为云桌面,助您解锁轻松高效办公模式

科技怪授

华为云桌面——云上办公安全高效,高清流畅

与时俱进的时代

流畅高清,华为云桌面助力设计师高效办公!

与时俱进的时代

被字节索赔 800 万实习生夺 NeurIPS 最佳论文,豆包 team 邀同届获奖人现场 chat!网友:字节要钱还是要人?_AI&大模型_华卫_InfoQ精选文章