写点什么

团队“DeepSeek”化!字节 Seed Edge 启动不足两月,冲刺 AGI 再发新作,训练成本再节省 40%

  • 2025-03-12
    北京
  • 本文字数:3140 字

    阅读完需:约 10 分钟

大小:1.51M时长:08:49
团队“DeepSeek”化!字节 Seed Edge启动不足两月,冲刺AGI再发新作,训练成本再节省40%

1 月下旬,字节正式设立代号为“Seed Edge”的研究项目,目标是探索 AGI 的新方法,其中“Seed”是豆包大模型团队名称,Edge 代表最前沿的 AGI 探索。

 

该项目团队近日发布了其最新的研究成果:一项针对 MoE 架构的关键优化技术 Comet,可将大模型训练效率提升 1.7 倍,成本节省 40%。

 

据悉,相较 DeepSeek 近期开源的 DualPipe 等 MoE 优化方案,Comet 可以像插件那样直接接入已有的 MoE 训练框架,支持业界绝大部分主流大模型,且无需对训练框架进行侵入式改动。Comet 也可以与 DualPipe 方案联合使用。

 

Comet 主要解决的是 MoE 模型里的专家放置挑战。单个 GPU 无法容纳所有专家,通常做法是将专家分布在不同的 GPU 上,因此 GPU 之间需要频繁地交换数据。为了减少通信开销,一种有效的策略是将通信与专家计算重叠。

 

Seed 团队指出,在分布式环境中,通信与计算的重叠存在两个问题:第一,随着数据块规模的缩小,计算效率降低,导致 GPU 计算资源的利用不足。此外,粗粒度的划分在通信的初始和结束阶段会导致不可避免的 GPU 空闲时间。第二,由于 MoE 的动态特性,专家在运行时的输入形状各异,给 GPU 带来了多样化的通信和计算负担。将通信和计算任务封装在不同的内核中,限制了对硬件资源的控制,导致内核性能不稳定,阻碍了通信与计算的无缝重叠。

 

Comet 则通过两项关键设计实现了通信与计算的细粒度重叠:1. 通过识别 MoE 中通信和计算操作之间的复杂数据依赖关系,优化计算通信管道的结构;2. 通过动态分配 GPU 线程块来平衡通信和计算工作负载,提高延迟隐藏效率。

 


据悉,Comet 由大约 1.2 万行的 C++、CUDA 代码以及 2000 行 Python 代码组成。Comet 提供了一套用户友好的 Python API,开发者可以将这些 API 无缝集成到他们的框架中。

 

字节在各种并行策略下,将 Comet 集成到了Megatron-LM中,并对其进行了验证。在 Nvidia H800 和 L20 集群上的广泛实验表明,与现有的最先进 MoE 系统相比,Comet 在典型的 MoE 层上实现了 1.96 倍的加速,对于端到端的 MoE 模型执行(如 Mixtral-8x7B、Qwen2-MoE、Phi3.5-MoE 等),平均加速 1.71 倍。当前,Comet 已被部署到拥有超过一万块 GPU 的生产集群中,用于加速大规模 MoE 模型的训练和推理,节省了数百万的 GPU 小时。

 


与 Megatron-Cutlass、Megatron-TE、FasterMoE 和 Tutel 相比,Comet 的端到端延迟分别降低了 34.1%、42.6%、44.4%和 31.8%。

 

开源代码:

https://github.com/bytedance/flux/pull/54/

 

研发成果单月“三连击”

 

字节已在内部组建 AGI 长期研究团队,代号“Seed Edge”,核心目标是做更长期、更基础的 AGI 前沿研究。Seed Edge 初步确定了五大研究方向,包括:

 

  • 探索推理能力边界:探索更高效且更通用、提升模型推理能力的方法;

  • 探索感知能力边界:找到统一生成和理解表示的方法,探索世界模型建模,探索比语言更好的对世界进行表示的建模;

  • 探索下一个 Scaling 方向:在预训练和推理阶段的 Scaling Laws 之外,探索 Multi-Agent 和 Test-Time Training 等方向;

  • 探索下一代学习范式:如探索比 Next-Token Prediction 更高效的学习目标,比 Backpropagation 更高效的学习方法,比大数据 Pretraining+Alignment 更高效的学习范式;

  • 探索下一代软硬一体的模型设计:面向下一代训练和推理硬件的结构特点设计下一代模型,达到训练效率、推理效率、模型性能的多目标同时优化,并进一步压榨下一代硬件能力。

 

自正式对外公布后,在过去的整个 2 月份,Seed Edge 项目团队公开了三项成果。

 

团队先是与北京交通大学联合发布和开源了通用视频生成实验模型 VideoWorld。与 Sora 和 DALL-E 不同,它不依赖语言来理解世界,仅仅观察视频就足以学习复杂的任务。同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中执行机器人任务。

 

值得注意的是,字节发布 VideoWorld 相关消息的 2 月 10 日,当天视觉认知概念股走强。参与该模型项目的北交大博士 Zhongwei Ren 还在小红书上感叹“学术民工误入华尔街片场”,并称该模型还在“炼丹”阶段。

 

之后,团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。

 

此外,团队还提出一个基于大语言模型 (LLM) 和最优先树搜索 (BFS) 的高效自动形式化定理证明系统 BFS-Prover。团队发现,简单的 BFS 方法经过系统优化后,可在大规模定理证明任务中展现卓越性能与效率,无需复杂的蒙特卡洛树搜索和价值函数。在数学定理证明基准 MiniF2F 测试集上,BFS-Prover 取得了 72.95% 准确率,超越此前所有方法。

 

Seed Edge 研究逐渐“DeepSeek”化

 

一定程度上,字节要打造的 Seed Edge 项目团队与 DeepSeek 相似。

 

Seed Edge 鼓励跨模态、跨团队合作,为项目成员提供宽松的研究环境,实行采用更长周期的考核方式,以保障挑战真正颠覆性的 AGI 课题。同时,Seed Edge 也将得到单独的算力资源保障。

 

根据晚点的报道,字节每半年考核一次绩效,但为 Seed Edge 项目人员提供更长考核周期,同时不做严格的过程考核,而是在项目取得突破进展后再做最终评估。Seed 团队主要考核模型层的效果,Seed Edge 则考核研究成果的价值。

 

对于 Seed Edge 还有一个特别的考核和激励设计:如果一位研究者经过多轮考核周期后取得了重要的研究成果,字节还会 “补偿” 此前几轮周期的考核绩效,“鼓励探索更长周期、不确定的和大胆的课题”。

 

而根据在 Seed Edge 实习过的知乎答主 Alan 的表述,“Seed 是国内唯一一家能在实习生身上提供难以想象的高资源投入的地方”。其在经过五轮技术面试以及最后语音部门负责人亲自面试后加入团队,称“这里对于前沿未知技术探索的氛围非常浓厚”,团队不聚焦刷榜,而是真正从 AGI 角度思考问题。另外,团队规模偏向小而精,各成员都很优秀,沟通成本非常低,并给了实习生很高的自由度。

 

用卡方面,知乎答主 tyfr 提到,自己为了验证一个想法而跑几百卡的实验是稀松平常的,就算任务突然挂了,几百卡空一天,也不会发警报斥责浪费资源。

 

另外,答主 swtheking 表示,Seed 内部现在很重视外部的 impact 和 research,所以团队里每个人都能有机会出国参与国际会议,将自己的一部分工作发表论文来提升个人和团队影响力。

 

Seed Edge 项目团队成员也逐渐年轻化,如 VideoWorld 模型的核心作者是在读博士,在字节团队长期实习 3 年。

 

去年 5 月,为储备最具潜力的研究人才,豆包大模型团队启动了“Top Seed 人才计划”,以极具竞争力的待遇在全球招募顶尖博士毕业生加入。

 

“我们看中的人一定是最 top 的 5%的人。”字节各部门负责人也表达了对团队成员的期待:进来(字节)之后去做 95%的人做不到的事情;最关键的点其实是创造力,敢于打破我们现在的认知;有坚定的目标和信念,对技术非常有热情、有想象力;有扎实的功底,动手能力也很强;有比较强的好奇心,有探索的欲望;能够承受挫折,“我们日常工作中的挫折感往往是大于成就感的,我们愿意给更长的周期,让大家去解决真正有挑战的事情。”

 

值得注意的是,近期字节大模型团队进行了一次架构调整。2 月 21 日,原谷歌 DeepMind 副总裁吴永辉博士加入字节担任大模型团队 Seed 基础研究负责人。吴永辉博士主要负责 AI 基础研究探索工作,偏基础研究;而之前负责人朱文佳主要负责模型应用相关的工作,偏模型应用,两个人都在 Seed 部门,都向梁汝波汇报。团队易帅对整体科研氛围的影响尚不知晓。

 

参考链接:

https://www.zhihu.com/question/4580911331/answer/112547776593

https://mp.weixin.qq.com/s/6Epg3iRvzEczGuSSQdBzEA

https://mp.weixin.qq.com/s/0fUwfjD4oeiqdZ3Yu1H17Q

2025-03-12 15:4010190

评论

发布
暂无评论

AI客服革命:PandaWiki如何重塑企业客户服务体验

百川云开发者

开源 知识库

离散制造建设方案

金陵老街

智慧工厂 智能制造 流程制造 柔性制造 离散制造

元图CAD:建筑施工全流程的数字化转型引擎

元图CAD

数字转型 建筑施工 全流程

2026企业RPA怎么选?国内外RPA怎么选?有以下选型策略

Techinsight

低代码开发纳入高校必修课:重构人才培养体系,抢占数字化高地

中烟创新

用自然语言生成Java项目?飞算JavaAI如何简化数据库设计、接口开发与框架搭建

科技经济

AI英语培训App的开发

北京木奇移动技术有限公司

AI教育 软件外包公司 AI英语

识别图片和视频:多模态识别的境外舆情工具

沃观Wovision

舆情分析 舆情监测 海外舆情监测 舆情监测平台

如何运行一个互联互通银联 BFIA 协议作业

隐语SecretFlow

五个适合中小项目的海外舆情监控网站推荐

沃观Wovision

海外舆情监控 舆情监测网站 舆情监控网站 海外舆情平台

光伏储能协调控制服务器是什么?核心定义与系统定位

西格电力

光伏发电 新型电力系统 分布式光伏发电 分布式光伏发电运维 光伏储能协调控制服务器

读Paimon源码聊设计:引子

泊浮目

数据湖 Apache Paimon 数据库 大数据 Apache Iceberg

Java开发者如何高效生成复杂SQL?飞算JavaAI的SQLChat为什么更可靠

科技经济

数字孪生项目的开发

北京木奇移动技术有限公司

数字孪生 软件外包公司 webgl开发

透视出海同行:用舆情监测软件实时追踪竞品的营销策略与动向

沃观Wovision

出海 出海企业 舆情监测 海外舆情监测 出海舆情

表结构设计不用愁!JNPF 数据建模神操作:常用字段复用 + 多表管理

引迈信息

烟草专卖执法案卷评查系统荣获“2025年度数字化创新最佳实践奖”

中烟创新

探索世界上最无用的超级项目

俞凡

城市 建筑

华为开发者空间,让根技术开发触手可及

华为云开发者联盟

JSAPIThree 加载天地图学习笔记:使用天地图影像服务

map_3d_vis

天地图 mapvthree

当我用DeepSeek写了这篇公众号,全是梗

kookeey代理严选

AI 代理IP DeepSekk

2026深圳国际机器人展览会·高交会

AIOTE智博会

机器人展 智能机器人展 人形机器人展

Qwen3-TTS 升级,多音色、多语种和多方言;KaniTTS:开源实时语音小模型,消费级 GPU 运行丨日报

RTE开发者社区

活动报名丨全球首款 AI 主题桌游《Talk With》线下开玩!上海 GDPS 2025 见!

RTE开发者社区

Web3项目的开发难点

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

海外媒体监测软件如何准确识别跨文化表达

沃观Wovision

海外舆情监控 海外舆情 海外舆情监测 舆情监控网站

淘宝店铺所有商品API接口指南

Datafox(数据狐)

淘宝API 淘宝店铺商品接口 天猫店铺所有商品接口 淘宝店铺所有商品API 淘宝整店商品接口

一文讲透机械组装行业MES的7大适用场景与实施路径

万界星空科技

mes 万界星空科技mes 制造业工厂 机械加工mes 机械组装mes

新手入门第一站:海外舆情监测网站应该从哪些开始上手?

沃观Wovision

海外舆情监控 海外舆情监测 舆情监测网站 舆情监测平台

AI Ping:大模型 API 开发神器!统一接口 + 智能路由,借助GLM-4.6高质量生成专业作品集网站

Lethehong

鸿蒙 HarmonyOS

YashanDB数据库在人工智能数据管理中的创新应用

数据库砖家

团队“DeepSeek”化!字节 Seed Edge启动不足两月,冲刺AGI再发新作,训练成本再节省40%_AI&大模型_褚杏娟_InfoQ精选文章