写点什么

字节 Seedream 3.0 追平 GPT-4o 入文生图第一梯队!即梦、豆包全量上线,技术报告公开

字节跳动

  • 2025-04-16
    北京
  • 本文字数:1261 字

    阅读完需:约 4 分钟

大小:646.25K时长:03:40
字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开

文生图领域权威的第三方榜单 Artificial Analysis 竞技场发布消息称,字节跳动Seed 团队图像生成模型 Seedream 3.0 综合性能已追平文生图 SOTA 模型 GPT-4o,稳定超越 Recraft V3、Ideogram、Imagen 3、Midjourney V6.1 等模型,进入全球第一梯队。

 


Seedream 3.0 是字节近日发布的新一代文生图主力模型,目前已在即梦、豆包等平台全量开放。据 Seedream 3.0 技术报告,Seedream3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,无需后处理即可实现 2K 分辨率图像直出,适配多比例场景,同时针对小字体高保真生成、多行文本排版等业界难题,模型也取得了突破性的效果表现。

 

值得一提的是,Seedream 3.0 在 3 秒左右即可快速生成 1K 分辨率的高品质内容,相比之下,业界同类模型生成该分辨率内容的耗时基本在 10 秒以上,而此前文生图 SOTA 模型 GPT-4o 平均耗时为 77 秒。

 

图注:Seedream3.0 技术报告中评测结果

 

豆包大模型团队推文介绍称,Seedream3.0 研发始于 2024 年末,通过调研设计师等群体的实际需求,团队不仅将图文匹配、结构、美感等行业共识性指标纳入攻坚方向,同时,也将挑战小字生成与复杂文本排版、2K 高清直出、快速图片生成等难题作为核心目标。

 

针对 2K 分辨率、多尺寸图像直出能力实现,团队借助了 Transformers 架构对变长输入序列的灵活处理能力,在从 512x512 到 2048x2048 的多种分辨率和不同长宽比上混合训练,让模型实现不经过额外深加工的高清直出,同时也支持多种分辨率输出。

 

为支持快速生成高品质图像,模型采用自研推理加速算法,依靠一致性噪声预测,叠加重要时间步采样,最终实现对模型的无损加速。在保障图文匹配、美学质量、结构准确度等指标的前提下,Seedream 3.0 生成 1K 分辨率图像仅需 3 秒。

 

图注:Seedream3.0 输出图像细节丰富,蝴蝶绒毛根根分明

 

Seedream3.0 还大幅提升了小字体高保真生成、多行文本语义排版表现,满足设计师对海报设计的需求。团队在预训练阶段,引入跨模态旋转位置编码,补足传统方法模态特征对齐短板,进一步加强了文字渲染能力。

 

图注:Seedream3.0 模型可完成小字生成、多行文本排版,并兼顾画面美感

 

据 Seedream 团队介绍,相比此前 2.0 版本,Seedream 3.0 在数据和 RLHF 阶段也使用了全新方案。团队采用缺陷感知的训练策略,使有效数据集扩充超过 20%,同时设计了精准的美感描述维度,并进一步拓展 RLHF 奖励模型,使 Seedream 3.0 具备多维度质量判别能力,综合性能大幅提升。

 

图注:Seedream3.0 在美感等方面较 2.0 进一步提升

 

Seedream 团队表示,“新模型在海报创作、生成效率、结构与美感等方面取得了明显进步,但在生成可用性、美感与结构、智能化方面仍有提升空间。”

 

据了解,未来,团队计划探索更高效的结构设计,包括构建效果更好、成本更低、生成更快的文生图模型,并进一步拓展模型对世界知识的理解,赋予模型交织生成等能力。同时,团队也计划探索数据、模型量级、奖励模型等维度的 Scaling 现象,将认知积累应用于下一代模型中。

 

Seedream 3.0 技术报告:https://arxiv.org/abs/2504.11346

Seedream 3.0 官方网页:https://team.doubao.com/zh/tech/seedream3_0

2025-04-16 15:3510522

评论

发布
暂无评论

甲方日常 56

句子

工作 随笔杂谈 日常

区块链应用场景有哪些?区块链应用开发

t13823115967

区块链应用场景有哪些 区块链应用开发

彻底搞懂 IO 底层原理

vivo互联网技术

Java Netty 服务器 语法

我是面试官,我来分享一波面经!看看我的内心OS

比伯

Java 编程 架构 面试 技术宅

他在滕王阁上醒来,见到智慧视觉第一城

脑极体

市值管理机器人、自动跑k线机器人开发

t13823115967

市值管理机器人 自动跑k线机器人开发

About Me

翎君

android

moon不讲武德!!!一个类加载机制给面试官说蒙了!!

moon聊技术

Java JVM 类加载 类加载器

双指针算法和位运算&离散化和区间合并

落曦

Appium上下文和H5测试(一)

清菡软件测试

App

【薪火计划】05 - 坦诚是领导力的根基

码字与律动

管理

【JAVA】List转换为array

笑春风

在线K歌的发展和优势

anyRTC开发者

音视频 WebRTC RTC sdk

如何基于App SDK快速地开发一个IoT App?

IoT云工坊

App 物联网 sdk 智能家居

马士兵最新2020涵盖P5—P8Java全栈架构师学习路线,跟着老师学我已拿P7Offer!

Java架构追梦

Java 学习 架构 面试 马士兵

云原生应用Go语言:你还在考虑的时候,别人已经应用实践

华为云开发者联盟

微服务 云技术 Go 语言

《华为数据之道》读书笔记:第 2 章 建立企业级数据综合治理体系

方志

数据中台 数据仓库 数字化转型 数据治理

第一周 架构方法 作业一 「架构师训练营 3 期」

胡云飞

极客大学架构师训练营 架构方法

面试专题-Java基础面试技术

码界西柚

Web前端如何实现断点续传

QiLab

Web 断点续传 upload pl

视频作品播放量低:自媒体作者如何走出新手村

石头IT视角

MySQL如何实现万亿级数据存储?

冰河

MySQL 分布式 微服务 高可用 mycat

Python进阶——什么是元类?

Kaito

Python

LeetCode题解:169. 多数元素,分治,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

基于DAYU的实时作业开发,分分钟搭建企业个性化推荐平台

华为云开发者联盟

华为 算法 数据 dayu

架构师训练营第 1 期 - 第 9 周 - 学习总结

wgl

极客大学架构师训练营

面试JVM一问三不知??来看看这个

程序员的时光

JVM Java虚拟机

30分钟开发一款抓取网站图片资源的浏览器插件

徐小夕

Java chrome 大前端 chrome扩展

英特尔与南京溧水经济技术开发区共同成立智能交通研究院

E科讯

申通快递 双11 云原生应用实践

阿里巴巴云原生

阿里云 Kubernetes 运维 云原生 监控

大厂经验:埋点数据质量之埋点验证

阿亮

埋点 数据验证

字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开_字节跳动_字节跳动技术团队_InfoQ精选文章