2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

团队“DeepSeek”化!字节 Seed Edge 启动不足两月,冲刺 AGI 再发新作,训练成本再节省 40%

  • 2025-03-12
    北京
  • 本文字数:3140 字

    阅读完需:约 10 分钟

大小:1.51M时长:08:49
团队“DeepSeek”化!字节 Seed Edge启动不足两月,冲刺AGI再发新作,训练成本再节省40%

1 月下旬,字节正式设立代号为“Seed Edge”的研究项目,目标是探索 AGI 的新方法,其中“Seed”是豆包大模型团队名称,Edge 代表最前沿的 AGI 探索。

 

该项目团队近日发布了其最新的研究成果:一项针对 MoE 架构的关键优化技术 Comet,可将大模型训练效率提升 1.7 倍,成本节省 40%。

 

据悉,相较 DeepSeek 近期开源的 DualPipe 等 MoE 优化方案,Comet 可以像插件那样直接接入已有的 MoE 训练框架,支持业界绝大部分主流大模型,且无需对训练框架进行侵入式改动。Comet 也可以与 DualPipe 方案联合使用。

 

Comet 主要解决的是 MoE 模型里的专家放置挑战。单个 GPU 无法容纳所有专家,通常做法是将专家分布在不同的 GPU 上,因此 GPU 之间需要频繁地交换数据。为了减少通信开销,一种有效的策略是将通信与专家计算重叠。

 

Seed 团队指出,在分布式环境中,通信与计算的重叠存在两个问题:第一,随着数据块规模的缩小,计算效率降低,导致 GPU 计算资源的利用不足。此外,粗粒度的划分在通信的初始和结束阶段会导致不可避免的 GPU 空闲时间。第二,由于 MoE 的动态特性,专家在运行时的输入形状各异,给 GPU 带来了多样化的通信和计算负担。将通信和计算任务封装在不同的内核中,限制了对硬件资源的控制,导致内核性能不稳定,阻碍了通信与计算的无缝重叠。

 

Comet 则通过两项关键设计实现了通信与计算的细粒度重叠:1. 通过识别 MoE 中通信和计算操作之间的复杂数据依赖关系,优化计算通信管道的结构;2. 通过动态分配 GPU 线程块来平衡通信和计算工作负载,提高延迟隐藏效率。

 


据悉,Comet 由大约 1.2 万行的 C++、CUDA 代码以及 2000 行 Python 代码组成。Comet 提供了一套用户友好的 Python API,开发者可以将这些 API 无缝集成到他们的框架中。

 

字节在各种并行策略下,将 Comet 集成到了Megatron-LM中,并对其进行了验证。在 Nvidia H800 和 L20 集群上的广泛实验表明,与现有的最先进 MoE 系统相比,Comet 在典型的 MoE 层上实现了 1.96 倍的加速,对于端到端的 MoE 模型执行(如 Mixtral-8x7B、Qwen2-MoE、Phi3.5-MoE 等),平均加速 1.71 倍。当前,Comet 已被部署到拥有超过一万块 GPU 的生产集群中,用于加速大规模 MoE 模型的训练和推理,节省了数百万的 GPU 小时。

 


与 Megatron-Cutlass、Megatron-TE、FasterMoE 和 Tutel 相比,Comet 的端到端延迟分别降低了 34.1%、42.6%、44.4%和 31.8%。

 

开源代码:

https://github.com/bytedance/flux/pull/54/

 

研发成果单月“三连击”

 

字节已在内部组建 AGI 长期研究团队,代号“Seed Edge”,核心目标是做更长期、更基础的 AGI 前沿研究。Seed Edge 初步确定了五大研究方向,包括:

 

  • 探索推理能力边界:探索更高效且更通用、提升模型推理能力的方法;

  • 探索感知能力边界:找到统一生成和理解表示的方法,探索世界模型建模,探索比语言更好的对世界进行表示的建模;

  • 探索下一个 Scaling 方向:在预训练和推理阶段的 Scaling Laws 之外,探索 Multi-Agent 和 Test-Time Training 等方向;

  • 探索下一代学习范式:如探索比 Next-Token Prediction 更高效的学习目标,比 Backpropagation 更高效的学习方法,比大数据 Pretraining+Alignment 更高效的学习范式;

  • 探索下一代软硬一体的模型设计:面向下一代训练和推理硬件的结构特点设计下一代模型,达到训练效率、推理效率、模型性能的多目标同时优化,并进一步压榨下一代硬件能力。

 

自正式对外公布后,在过去的整个 2 月份,Seed Edge 项目团队公开了三项成果。

 

团队先是与北京交通大学联合发布和开源了通用视频生成实验模型 VideoWorld。与 Sora 和 DALL-E 不同,它不依赖语言来理解世界,仅仅观察视频就足以学习复杂的任务。同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中执行机器人任务。

 

值得注意的是,字节发布 VideoWorld 相关消息的 2 月 10 日,当天视觉认知概念股走强。参与该模型项目的北交大博士 Zhongwei Ren 还在小红书上感叹“学术民工误入华尔街片场”,并称该模型还在“炼丹”阶段。

 

之后,团队提出了全新的稀疏模型架构 UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE 架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的 Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。

 

此外,团队还提出一个基于大语言模型 (LLM) 和最优先树搜索 (BFS) 的高效自动形式化定理证明系统 BFS-Prover。团队发现,简单的 BFS 方法经过系统优化后,可在大规模定理证明任务中展现卓越性能与效率,无需复杂的蒙特卡洛树搜索和价值函数。在数学定理证明基准 MiniF2F 测试集上,BFS-Prover 取得了 72.95% 准确率,超越此前所有方法。

 

Seed Edge 研究逐渐“DeepSeek”化

 

一定程度上,字节要打造的 Seed Edge 项目团队与 DeepSeek 相似。

 

Seed Edge 鼓励跨模态、跨团队合作,为项目成员提供宽松的研究环境,实行采用更长周期的考核方式,以保障挑战真正颠覆性的 AGI 课题。同时,Seed Edge 也将得到单独的算力资源保障。

 

根据晚点的报道,字节每半年考核一次绩效,但为 Seed Edge 项目人员提供更长考核周期,同时不做严格的过程考核,而是在项目取得突破进展后再做最终评估。Seed 团队主要考核模型层的效果,Seed Edge 则考核研究成果的价值。

 

对于 Seed Edge 还有一个特别的考核和激励设计:如果一位研究者经过多轮考核周期后取得了重要的研究成果,字节还会 “补偿” 此前几轮周期的考核绩效,“鼓励探索更长周期、不确定的和大胆的课题”。

 

而根据在 Seed Edge 实习过的知乎答主 Alan 的表述,“Seed 是国内唯一一家能在实习生身上提供难以想象的高资源投入的地方”。其在经过五轮技术面试以及最后语音部门负责人亲自面试后加入团队,称“这里对于前沿未知技术探索的氛围非常浓厚”,团队不聚焦刷榜,而是真正从 AGI 角度思考问题。另外,团队规模偏向小而精,各成员都很优秀,沟通成本非常低,并给了实习生很高的自由度。

 

用卡方面,知乎答主 tyfr 提到,自己为了验证一个想法而跑几百卡的实验是稀松平常的,就算任务突然挂了,几百卡空一天,也不会发警报斥责浪费资源。

 

另外,答主 swtheking 表示,Seed 内部现在很重视外部的 impact 和 research,所以团队里每个人都能有机会出国参与国际会议,将自己的一部分工作发表论文来提升个人和团队影响力。

 

Seed Edge 项目团队成员也逐渐年轻化,如 VideoWorld 模型的核心作者是在读博士,在字节团队长期实习 3 年。

 

去年 5 月,为储备最具潜力的研究人才,豆包大模型团队启动了“Top Seed 人才计划”,以极具竞争力的待遇在全球招募顶尖博士毕业生加入。

 

“我们看中的人一定是最 top 的 5%的人。”字节各部门负责人也表达了对团队成员的期待:进来(字节)之后去做 95%的人做不到的事情;最关键的点其实是创造力,敢于打破我们现在的认知;有坚定的目标和信念,对技术非常有热情、有想象力;有扎实的功底,动手能力也很强;有比较强的好奇心,有探索的欲望;能够承受挫折,“我们日常工作中的挫折感往往是大于成就感的,我们愿意给更长的周期,让大家去解决真正有挑战的事情。”

 

值得注意的是,近期字节大模型团队进行了一次架构调整。2 月 21 日,原谷歌 DeepMind 副总裁吴永辉博士加入字节担任大模型团队 Seed 基础研究负责人。吴永辉博士主要负责 AI 基础研究探索工作,偏基础研究;而之前负责人朱文佳主要负责模型应用相关的工作,偏模型应用,两个人都在 Seed 部门,都向梁汝波汇报。团队易帅对整体科研氛围的影响尚不知晓。

 

参考链接:

https://www.zhihu.com/question/4580911331/answer/112547776593

https://mp.weixin.qq.com/s/6Epg3iRvzEczGuSSQdBzEA

https://mp.weixin.qq.com/s/0fUwfjD4oeiqdZ3Yu1H17Q

2025-03-12 15:409622

评论

发布
暂无评论

TiDB Contributor 资料汇总

TiDB 社区干货传送门

iOS 单元测试之常用框架 OCMock 详解 | 京东云技术团队

京东科技开发者

ios 测试 单元测试 Mock 企业号 6 月 PK 榜

「有问必答」Go如何优雅的对时间进行格式化?

王中阳Go

高效工作 学习方法 面试题 Go 语言 6 月 优质更文活动

HTTP请求:requests的进阶使用方法浅析 | 京东云技术团队

京东科技开发者

Python HTTP请求 requests 企业号 6 月 PK 榜

Wallys/board with SFP module /ipq8072/ipq6010/ipq4019 / support openwrt

Cindy-wallys

IPQ4019 IPQ6010 IPQ8072 ipq4029

直播源码搭建平台技术知识:实时语音识别字幕呈现功能

山东布谷科技

源码 软件开发 源码搭建 直播源码

深入剖析spring核心容器依赖注入类型和原理:Spring依赖注入类型

互联网架构师小马

Wise 的平台工程 KPI 探索之旅

SEAL安全

KPI 平台工程

CST电磁仿真软件对火箭发射场雷击仿真与电子设备结构设计

思茂信息

cst cst仿真软件 abaqus abaqus软件 abaqus有限元仿真

【TiDB v7.1.0 荣誉体验官招募】索尼 PS5 、索尼无线降噪耳机、倍轻松颈部按摩器等你拿!

TiDB 社区干货传送门

TiDB v7.1.0 版本 Resource Control体验

TiDB 社区干货传送门

新版本/特性解读 7.x 实践

大佬带你深入理解Spring依赖注入原理:bean的注册及实例化

互联网架构师小马

智造零距离:工程师走访华秋深圳 PCB 工厂,观摩高可靠板制造流程

华秋电子

2023年全国高校公益人工智能师资培训营报名正式开启

飞桨PaddlePaddle

人工智能 百度 飞桨

TiDB v7.1.0版本 相关(部署、在线扩容、数据迁移)测试

TiDB 社区干货传送门

版本测评 新版本/特性发布 扩/缩容 数据库连接 7.x 实践

tiflash引擎的使用小总结

TiDB 社区干货传送门

OLAP 场景实践

【6.09-6.16】写作社区优秀技术博文一览

InfoQ写作社区官方

热门活动 优质创作周报

小程序容器技术:数字门户的创新引擎

FinClip

Java8 Stream 的总体设计和使用

4ye

Java' 6 月 优质更文活动

TiDB 7.1 资源管控特性试用

TiDB 社区干货传送门

新版本/特性解读 7.x 实践

Python自动化测试的配置层实现方式对标与落地 | 京东云技术团队

京东科技开发者

Python 自动化测试 配置文件 企业号 6 月 PK 榜

HTTP请求:requests模块基础使用必知必会 | 京东云技术团队

京东科技开发者

Python HTTP请求 requests 企业号 6 月 PK 榜

Spring循环依赖案例分析:三级缓存结构+循环依赖解决方案

互联网架构师小马

探索开源创新理论|2023开放原子全球开源峰会开源创新理论与实践分论坛成功召开

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子 开源创新理论

搭建TiDB负载均衡环境-HAproxy+KeepAlived实践

TiDB 社区干货传送门

实践案例 管理与运维 数据库架构设计 7.x 实践

全球异型LED显示屏的市场发展

Dylan

技术 设计 领域 LED显示屏 市场

搭建TiDB负载均衡环境-LVS+KeepAlived实践

TiDB 社区干货传送门

管理与运维 7.x 实践

6 种方式读取 Springboot 的配置,老鸟都这么玩(原理+实战)

程序员小富

springboot

浅谈中移链中插件的功能及使用

BSN研习社

区块链

一篇文章帮你解读所有 TiDB 工具&常见问题解决大全

TiDB 社区干货传送门

记一次 Rust 内存泄漏排查之旅 | 经验总结篇

Greptime 格睿科技

rust 时序数据库 内存泄漏 云原生数据库 heap profiling

团队“DeepSeek”化!字节 Seed Edge启动不足两月,冲刺AGI再发新作,训练成本再节省40%_AI&大模型_褚杏娟_InfoQ精选文章