写点什么

字节 Seedream 3.0 追平 GPT-4o 入文生图第一梯队!即梦、豆包全量上线,技术报告公开

字节跳动

  • 2025-04-16
    北京
  • 本文字数:1261 字

    阅读完需:约 4 分钟

大小:646.25K时长:03:40
字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开

文生图领域权威的第三方榜单 Artificial Analysis 竞技场发布消息称,字节跳动Seed 团队图像生成模型 Seedream 3.0 综合性能已追平文生图 SOTA 模型 GPT-4o,稳定超越 Recraft V3、Ideogram、Imagen 3、Midjourney V6.1 等模型,进入全球第一梯队。

 


Seedream 3.0 是字节近日发布的新一代文生图主力模型,目前已在即梦、豆包等平台全量开放。据 Seedream 3.0 技术报告,Seedream3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,无需后处理即可实现 2K 分辨率图像直出,适配多比例场景,同时针对小字体高保真生成、多行文本排版等业界难题,模型也取得了突破性的效果表现。

 

值得一提的是,Seedream 3.0 在 3 秒左右即可快速生成 1K 分辨率的高品质内容,相比之下,业界同类模型生成该分辨率内容的耗时基本在 10 秒以上,而此前文生图 SOTA 模型 GPT-4o 平均耗时为 77 秒。

 

图注:Seedream3.0 技术报告中评测结果

 

豆包大模型团队推文介绍称,Seedream3.0 研发始于 2024 年末,通过调研设计师等群体的实际需求,团队不仅将图文匹配、结构、美感等行业共识性指标纳入攻坚方向,同时,也将挑战小字生成与复杂文本排版、2K 高清直出、快速图片生成等难题作为核心目标。

 

针对 2K 分辨率、多尺寸图像直出能力实现,团队借助了 Transformers 架构对变长输入序列的灵活处理能力,在从 512x512 到 2048x2048 的多种分辨率和不同长宽比上混合训练,让模型实现不经过额外深加工的高清直出,同时也支持多种分辨率输出。

 

为支持快速生成高品质图像,模型采用自研推理加速算法,依靠一致性噪声预测,叠加重要时间步采样,最终实现对模型的无损加速。在保障图文匹配、美学质量、结构准确度等指标的前提下,Seedream 3.0 生成 1K 分辨率图像仅需 3 秒。

 

图注:Seedream3.0 输出图像细节丰富,蝴蝶绒毛根根分明

 

Seedream3.0 还大幅提升了小字体高保真生成、多行文本语义排版表现,满足设计师对海报设计的需求。团队在预训练阶段,引入跨模态旋转位置编码,补足传统方法模态特征对齐短板,进一步加强了文字渲染能力。

 

图注:Seedream3.0 模型可完成小字生成、多行文本排版,并兼顾画面美感

 

据 Seedream 团队介绍,相比此前 2.0 版本,Seedream 3.0 在数据和 RLHF 阶段也使用了全新方案。团队采用缺陷感知的训练策略,使有效数据集扩充超过 20%,同时设计了精准的美感描述维度,并进一步拓展 RLHF 奖励模型,使 Seedream 3.0 具备多维度质量判别能力,综合性能大幅提升。

 

图注:Seedream3.0 在美感等方面较 2.0 进一步提升

 

Seedream 团队表示,“新模型在海报创作、生成效率、结构与美感等方面取得了明显进步,但在生成可用性、美感与结构、智能化方面仍有提升空间。”

 

据了解,未来,团队计划探索更高效的结构设计,包括构建效果更好、成本更低、生成更快的文生图模型,并进一步拓展模型对世界知识的理解,赋予模型交织生成等能力。同时,团队也计划探索数据、模型量级、奖励模型等维度的 Scaling 现象,将认知积累应用于下一代模型中。

 

Seedream 3.0 技术报告:https://arxiv.org/abs/2504.11346

Seedream 3.0 官方网页:https://team.doubao.com/zh/tech/seedream3_0

2025-04-16 15:3511473

评论

发布
暂无评论

如何借用第三方APM工具, 为移动应用保驾护航

APM

技术解码 | GB28181协议简介及实践

腾讯云音视频

腾讯云 ffmpeg 流媒体 视频监控系统

四面字节跳动,终于拿下1-2级offer :Redis+分布式+微服务+算法+网络

Java 程序员 架构 面试 计算机

他是因为什么,能在半年内从菜鸟学生成为大厂收割机?

Java架构师迁哥

这款开源软件绝了!1分钟即可打造了一个”黑客范“终端~

编程菌

Java 编程 程序员 项目 计算机

数字化成潮流,运维为啥也热了?

ToB行业头条

科技互联网

Git提交信息规范化

admin

git flow git cherry-pick Git Commit git 规范

被转载10W次的:Java小白系统资料和职业规划路线

java小李

java基础

《分享几道高频 Redis 高频面试题,面试不用愁》

java小李

Redis Stream

左晖:凭一己之力改变了一个行业

石云升

思维模型 诚信 7月日更

降低“美丽成本”,区块链助力化妆品行业数字化转型

旺链科技

区块链 数字化转型 化妆品行业

GitHub标星139K的:“嵌入式Linux系统开发教程”

白亦杨

《MyCat数据库的基础配置及使用》

java小李

java 14 mycat

架构训练营模块3课后作业-学生管理系统详设文档

喻高咏        

“普通本科Java程序员,如何五年存够80万买房?就靠这选择!”

java小李

java 14

基于 Java Spring Security 的关注微信公众号即登录的设计与实现ya

哈德韦

spring security 微信公众号 Apache Pulsar SSO

万万没想到,阿里巴巴被挂后,还能获得内推名额,五面口碑一举拿下offer

Java 编程 程序员 架构 面试

FBI 警告称,网络犯罪分子可能以 2021 年东京奥运会为目标!

郑州埃文科技

深度融合,云管理平台助推政府实现“最多跑一次”改革

BoCloud博云

云计算 云管理平台 云管理

iOS底层面试题(下篇)

程序员 面试 ios开发

编辑器看看

strive

编辑器

ipfs矿机最新消息?星际联盟矿机怎么样?

区块链 fil ipfs矿机 星际联盟

当面试官问到:《MySQL数据库的锁机制》该如何拿分?

java小李

spring Boot Starter

幸福的人在当下就活出了幸福的样子|靠谱点评

无量靠谱

详解TCP协议与UDP协议的区别

Linux服务器开发

网络协议 Linux服务器开发 Linux后台开发 TCP协议 UDP协议

最新流行的6大优秀DevOps工具

java小李

java 14 puppeteer

解决方案| 全民抗“灾”- 实时音视频在应急指挥场景的应用

anyRTC开发者

音视频 WebRTC 指挥调度

MySQL高频面试题的灵魂拷问

java小李

MySQL

使用Docker在无网络环境下搭建深度学习环境

一条SQL语句执行得很慢的原因盘点

北游学Java

Java MySQL

字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开_字节跳动_字节跳动技术团队_InfoQ精选文章