10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

团队“DeepSeek”化!字节 Seed Edge 启动不足两月,冲刺 AGI 再发新作,训练成本再节省 40%

  • 2025-03-12
    北京
  • 本文字数:3140 字

    阅读完需:约 10 分钟

大小:1.51M时长:08:49
团队“DeepSeek”化!字节 Seed Edge启动不足两月,冲刺AGI再发新作,训练成本再节省40%

1 月下旬,字节正式设立代号为“Seed Edge”的研究项目,目标是探索 AGI 的新方法,其中“Seed”是豆包大模型团队名称,Edge 代表最前沿的 AGI 探索。

 

该项目团队近日发布了其最新的研究成果:一项针对 MoE 架构的关键优化技术 Comet,可将大模型训练效率提升 1.7 倍,成本节省 40%。

 

据悉,相较 DeepSeek 近期开源的 DualPipe 等 MoE 优化方案,Comet 可以像插件那样直接接入已有的 MoE 训练框架,支持业界绝大部分主流大模型,且无需对训练框架进行侵入式改动。Comet 也可以与 DualPipe 方案联合使用。

 

Comet 主要解决的是 MoE 模型里的专家放置挑战。单个 GPU 无法容纳所有专家,通常做法是将专家分布在不同的 GPU 上,因此 GPU 之间需要频繁地交换数据。为了减少通信开销,一种有效的策略是将通信与专家计算重叠。

 

Seed 团队指出,在分布式环境中,通信与计算的重叠存在两个问题:第一,随着数据块规模的缩小,计算效率降低,导致 GPU 计算资源的利用不足。此外,粗粒度的划分在通信的初始和结束阶段会导致不可避免的 GPU 空闲时间。第二,由于 MoE 的动态特性,专家在运行时的输入形状各异,给 GPU 带来了多样化的通信和计算负担。将通信和计算任务封装在不同的内核中,限制了对硬件资源的控制,导致内核性能不稳定,阻碍了通信与计算的无缝重叠。

 

Comet 则通过两项关键设计实现了通信与计算的细粒度重叠:1. 通过识别 MoE 中通信和计算操作之间的复杂数据依赖关系,优化计算通信管道的结构;2. 通过动态分配 GPU 线程块来平衡通信和计算工作负载,提高延迟隐藏效率。

 


据悉,Comet 由大约 1.2 万行的 C++、CUDA 代码以及 2000 行 Python 代码组成。Comet 提供了一套用户友好的 Python API,开发者可以将这些 API 无缝集成到他们的框架中。

 

字节在各种并行策略下,将 Comet 集成到了Megatron-LM中,并对其进行了验证。在 Nvidia H800 和 L20 集群上的广泛实验表明,与现有的最先进 MoE 系统相比,Comet 在典型的 MoE 层上实现了 1.96 倍的加速,对于端到端的 MoE 模型执行(如 Mixtral-8x7B、Qwen2-MoE、Phi3.5-MoE 等),平均加速 1.71 倍。当前,Comet 已被部署到拥有超过一万块 GPU 的生产集群中,用于加速大规模 MoE 模型的训练和推理,节省了数百万的 GPU 小时。

 


与 Megatron-Cutlass、Megatron-TE、FasterMoE 和 Tutel 相比,Comet 的端到端延迟分别降低了 34.1%、42.6%、44.4%和 31.8%。

 

开源代码:

https://github.com/bytedance/flux/pull/54/

 

研发成果单月“三连击”

 

字节已在内部组建 AGI 长期研究团队,代号“Seed Edge”,核心目标是做更长期、更基础的 AGI 前沿研究。Seed Edge 初步确定了五大研究方向,包括:

 

  • 探索推理能力边界:探索更高效且更通用、提升模型推理能力的方法;

  • 探索感知能力边界:找到统一生成和理解表示的方法,探索世界模型建模,探索比语言更好的对世界进行表示的建模;

  • 探索下一个 Scaling 方向:在预训练和推理阶段的 Scaling Laws 之外,探索 Multi-Agent 和 Test-Time Training 等方向;

  • 探索下一代学习范式:如探索比 Next-Token Prediction 更高效的学习目标,比 Backpropagation 更高效的学习方法,比大数据 Pretraining+Alignment 更高效的学习范式;

  • 探索下一代软硬一体的模型设计:面向下一代训练和推理硬件的结构特点设计下一代模型,达到训练效率、推理效率、模型性能的多目标同时优化,并进一步压榨下一代硬件能力。

 

自正式对外公布后,在过去的整个 2 月份,Seed Edge 项目团队公开了三项成果。

 

团队先是与北京交通大学联合发布和开源了通用视频生成实验模型 VideoWorld。与 Sora 和 DALL-E 不同,它不依赖语言来理解世界,仅仅观察视频就足以学习复杂的任务。同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中执行机器人任务。

 

值得注意的是,字节发布 VideoWorld 相关消息的 2 月 10 日,当天视觉认知概念股走强。参与该模型项目的北交大博士 Zhongwei Ren 还在小红书上感叹“学术民工误入华尔街片场”,并称该模型还在“炼丹”阶段。

 

之后,团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。

 

此外,团队还提出一个基于大语言模型 (LLM) 和最优先树搜索 (BFS) 的高效自动形式化定理证明系统 BFS-Prover。团队发现,简单的 BFS 方法经过系统优化后,可在大规模定理证明任务中展现卓越性能与效率,无需复杂的蒙特卡洛树搜索和价值函数。在数学定理证明基准 MiniF2F 测试集上,BFS-Prover 取得了 72.95% 准确率,超越此前所有方法。

 

Seed Edge 研究逐渐“DeepSeek”化

 

一定程度上,字节要打造的 Seed Edge 项目团队与 DeepSeek 相似。

 

Seed Edge 鼓励跨模态、跨团队合作,为项目成员提供宽松的研究环境,实行采用更长周期的考核方式,以保障挑战真正颠覆性的 AGI 课题。同时,Seed Edge 也将得到单独的算力资源保障。

 

根据晚点的报道,字节每半年考核一次绩效,但为 Seed Edge 项目人员提供更长考核周期,同时不做严格的过程考核,而是在项目取得突破进展后再做最终评估。Seed 团队主要考核模型层的效果,Seed Edge 则考核研究成果的价值。

 

对于 Seed Edge 还有一个特别的考核和激励设计:如果一位研究者经过多轮考核周期后取得了重要的研究成果,字节还会 “补偿” 此前几轮周期的考核绩效,“鼓励探索更长周期、不确定的和大胆的课题”。

 

而根据在 Seed Edge 实习过的知乎答主 Alan 的表述,“Seed 是国内唯一一家能在实习生身上提供难以想象的高资源投入的地方”。其在经过五轮技术面试以及最后语音部门负责人亲自面试后加入团队,称“这里对于前沿未知技术探索的氛围非常浓厚”,团队不聚焦刷榜,而是真正从 AGI 角度思考问题。另外,团队规模偏向小而精,各成员都很优秀,沟通成本非常低,并给了实习生很高的自由度。

 

用卡方面,知乎答主 tyfr 提到,自己为了验证一个想法而跑几百卡的实验是稀松平常的,就算任务突然挂了,几百卡空一天,也不会发警报斥责浪费资源。

 

另外,答主 swtheking 表示,Seed 内部现在很重视外部的 impact 和 research,所以团队里每个人都能有机会出国参与国际会议,将自己的一部分工作发表论文来提升个人和团队影响力。

 

Seed Edge 项目团队成员也逐渐年轻化,如 VideoWorld 模型的核心作者是在读博士,在字节团队长期实习 3 年。

 

去年 5 月,为储备最具潜力的研究人才,豆包大模型团队启动了“Top Seed 人才计划”,以极具竞争力的待遇在全球招募顶尖博士毕业生加入。

 

“我们看中的人一定是最 top 的 5%的人。”字节各部门负责人也表达了对团队成员的期待:进来(字节)之后去做 95%的人做不到的事情;最关键的点其实是创造力,敢于打破我们现在的认知;有坚定的目标和信念,对技术非常有热情、有想象力;有扎实的功底,动手能力也很强;有比较强的好奇心,有探索的欲望;能够承受挫折,“我们日常工作中的挫折感往往是大于成就感的,我们愿意给更长的周期,让大家去解决真正有挑战的事情。”

 

值得注意的是,近期字节大模型团队进行了一次架构调整。2 月 21 日,原谷歌 DeepMind 副总裁吴永辉博士加入字节担任大模型团队 Seed 基础研究负责人。吴永辉博士主要负责 AI 基础研究探索工作,偏基础研究;而之前负责人朱文佳主要负责模型应用相关的工作,偏模型应用,两个人都在 Seed 部门,都向梁汝波汇报。团队易帅对整体科研氛围的影响尚不知晓。

 

参考链接:

https://www.zhihu.com/question/4580911331/answer/112547776593

https://mp.weixin.qq.com/s/6Epg3iRvzEczGuSSQdBzEA

https://mp.weixin.qq.com/s/0fUwfjD4oeiqdZ3Yu1H17Q

2025-03-12 15:409889

评论

发布
暂无评论

“一粒米”的故事:哈工程昇智识米团队基于昇腾AI创新提出水稻适度加工智能化解决方案

极客天地

据+AI赋能教育智能化转型,华为云技术优势明显!

爱尚科技

让下载速度更快更稳,华为云CDN多重技术助力网络加速

爱科技的水月

智能且高效,华为云CDN三大特点助企业云上创新

爱科技的水月

华为云大数据BI平台,助力电商企业破除数据孤岛,轻松备战双十一

秃头也爱科技

人生的喜悦、不快与成长,都在那一篇篇的文字中得到记录 | 2022 年终总结

宇宙之一粟

年终总结 人生故事 代码之外 12月月更

华为云大数据BI,如何助力智慧医院数字化升级

秃头也爱科技

华为云大数据BI,助力电商企业打赢“年货节”攻坚战

秃头也爱科技

cleanmymac2024永久版mac系统清理软件

茶色酒

CleanMyMac CleanMyMac X

Mysql索引覆盖

京东科技开发者

MySQL 数据库 sql 搜索引擎 优化

HarmonyOS多媒体框架介绍

HarmonyOS开发者

HarmonyOS

直播回顾 | 根因分析助力AIOps走得更远!

博睿数据

可观测性 智能运维 博睿数据

2022-12-29:nsq是go语言写的消息队列。请问k3s部署nsq,yaml如何写?

福大大架构师每日一题

云原生 k8s k3s nsq 福大大

华为云CDN引领网站性能全面优化

爱科技的水月

CleanMyMac2024激活码使用教程

茶色酒

CleanMyMac CleanMyMac X

【web 开发基础】PHP查询数组中的指定元素 (50)

迷彩

数组 数组操作 二维数组 PHP基础 数组查询

FL Studio2024中文版本水果软件下载

茶色酒

FL Studio FL Studio 21

亚信科技通信、交通行业数据库项目入选“星河”标杆、优秀案例

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库

助力网络碳中和 | 华为发布站点能源十大趋势

极客天地

界面原型设计

芯动大师

android GUI设计 mockplus droiddraw

华为云大数据BI,企业数字化运营得力助手

爱尚科技

HTTPS基础知识

穿过生命散发芬芳

https 12月月更

【架构设计】保持简单轻量设计的三个原则——DRY,KISS, YAGNI

JAVA旭阳

Java 架构

【web 开发基础】如何删除数组中的重复元素(52)

迷彩

数组 数组操作 PHP基础 唯一性

共创精彩游戏未来,华为云大数据解决方案助力游戏企业成功转型!

秃头也爱科技

浅谈华为云大数据BI对企业数字化转型的助力

秃头也爱科技

openEuler委员会主席江大勇:跨越生态拐点 欧拉逐梦新征程

科技热闻

跳槽一次能涨多少?总算是见识到跳槽天花板了

程序知音

Java java面试 后端开发 八股文 Java面试题

超融合一体流式引擎,打造分布式数据库新纪元

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库

缓解等待焦虑,华为云CDN为您提供畅快下载体验

爱科技的水月

【web 开发基础】PHP中获取数组的元素个数 (51)

迷彩

数组 数组操作 PHP基础 数组查询 统计数组

团队“DeepSeek”化!字节 Seed Edge启动不足两月,冲刺AGI再发新作,训练成本再节省40%_AI&大模型_褚杏娟_InfoQ精选文章