写点什么

字节 Seedream 3.0 追平 GPT-4o 入文生图第一梯队!即梦、豆包全量上线,技术报告公开

字节跳动

  • 2025-04-16
    北京
  • 本文字数:1261 字

    阅读完需:约 4 分钟

大小:646.25K时长:03:40
字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开

文生图领域权威的第三方榜单 Artificial Analysis 竞技场发布消息称,字节跳动Seed 团队图像生成模型 Seedream 3.0 综合性能已追平文生图 SOTA 模型 GPT-4o,稳定超越 Recraft V3、Ideogram、Imagen 3、Midjourney V6.1 等模型,进入全球第一梯队。

 


Seedream 3.0 是字节近日发布的新一代文生图主力模型,目前已在即梦、豆包等平台全量开放。据 Seedream 3.0 技术报告,Seedream3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,无需后处理即可实现 2K 分辨率图像直出,适配多比例场景,同时针对小字体高保真生成、多行文本排版等业界难题,模型也取得了突破性的效果表现。

 

值得一提的是,Seedream 3.0 在 3 秒左右即可快速生成 1K 分辨率的高品质内容,相比之下,业界同类模型生成该分辨率内容的耗时基本在 10 秒以上,而此前文生图 SOTA 模型 GPT-4o 平均耗时为 77 秒。

 

图注:Seedream3.0 技术报告中评测结果

 

豆包大模型团队推文介绍称,Seedream3.0 研发始于 2024 年末,通过调研设计师等群体的实际需求,团队不仅将图文匹配、结构、美感等行业共识性指标纳入攻坚方向,同时,也将挑战小字生成与复杂文本排版、2K 高清直出、快速图片生成等难题作为核心目标。

 

针对 2K 分辨率、多尺寸图像直出能力实现,团队借助了 Transformers 架构对变长输入序列的灵活处理能力,在从 512x512 到 2048x2048 的多种分辨率和不同长宽比上混合训练,让模型实现不经过额外深加工的高清直出,同时也支持多种分辨率输出。

 

为支持快速生成高品质图像,模型采用自研推理加速算法,依靠一致性噪声预测,叠加重要时间步采样,最终实现对模型的无损加速。在保障图文匹配、美学质量、结构准确度等指标的前提下,Seedream 3.0 生成 1K 分辨率图像仅需 3 秒。

 

图注:Seedream3.0 输出图像细节丰富,蝴蝶绒毛根根分明

 

Seedream3.0 还大幅提升了小字体高保真生成、多行文本语义排版表现,满足设计师对海报设计的需求。团队在预训练阶段,引入跨模态旋转位置编码,补足传统方法模态特征对齐短板,进一步加强了文字渲染能力。

 

图注:Seedream3.0 模型可完成小字生成、多行文本排版,并兼顾画面美感

 

据 Seedream 团队介绍,相比此前 2.0 版本,Seedream 3.0 在数据和 RLHF 阶段也使用了全新方案。团队采用缺陷感知的训练策略,使有效数据集扩充超过 20%,同时设计了精准的美感描述维度,并进一步拓展 RLHF 奖励模型,使 Seedream 3.0 具备多维度质量判别能力,综合性能大幅提升。

 

图注:Seedream3.0 在美感等方面较 2.0 进一步提升

 

Seedream 团队表示,“新模型在海报创作、生成效率、结构与美感等方面取得了明显进步,但在生成可用性、美感与结构、智能化方面仍有提升空间。”

 

据了解,未来,团队计划探索更高效的结构设计,包括构建效果更好、成本更低、生成更快的文生图模型,并进一步拓展模型对世界知识的理解,赋予模型交织生成等能力。同时,团队也计划探索数据、模型量级、奖励模型等维度的 Scaling 现象,将认知积累应用于下一代模型中。

 

Seedream 3.0 技术报告:https://arxiv.org/abs/2504.11346

Seedream 3.0 官方网页:https://team.doubao.com/zh/tech/seedream3_0

2025-04-16 15:3511342

评论

发布
暂无评论

WiFi6 与 5G 的异同分析

石君

5G wifi 28天写作

中美上市软件公司对比中的投资启示

ToB行业头条

红牛交易所app系统开发

威掂l8929545452

区块链 系统开发 APP开发 红牛交易所

开发更便捷 阿里云推出一站式应用研发平台EMAS 2.0

移动研发平台EMAS

阿里云 Serverless AI 低代码 移动研发平台

流行的后台管理系统模板总结

老魚

程序员 建站 web全栈

避免短信接口被黑客刷取的方法

香芋味的猫丶

短信防刷 接口安全 短信验证码 短信防轰炸 短信防火墙

如何利用策略模式避免冗长的if-else/switch分支判断代码?

李尚智

Java 学习 设计模式

百度智能小程序打造购票观影一站式体验,影视宣发新玩法助力行业复苏

DT极客

Serverless 架构到底要不要服务器?

Serverless Devs

Java 云计算 Serverless 运维 云原生

数据库表数据量大读写缓慢如何优化(2)「查询分离」

我爱娃哈哈😍

数据库 大数据 架构 后端 优化

开发老人笔记:Git 常用命令清单

华为云开发者联盟

git 代码 bug

在函数计算中到底该不该使用 VPC?

donghui

Serverless

Linux I/O 原理和 Zero-copy 技术全面揭秘

赖猫

c++ Linux linux编程 服务器开发 I/O

区块链轻节点:“身”轻,责任重

华为云开发者联盟

区块链 数据 数据隐私 轻节点

BI项目失败?看看是不是缺少了这几项闭环!

博文视点Broadview

自动驾驶汽车的发展史

anyRTC开发者

人工智能 自动驾驶 AI

解决Windows2012 R2下安装PostgreSQL报错的问题

PostgreSQLChina

数据库 postgresql 开源

现货合约量化交易系统开发搭建

薇電13242772558

数字货币 策略模式

TypeScript 渐进迁移指南

LeanCloud

JavaScript typescript nodejs

Intel首次公布11代酷睿桌面处理器性能:8核i9斩落锐龙12核

科技新消息

即构微信小程序直播组件是什么?有哪些功能?哪些小程序类目可以使用?

ZEGO即构

高并发架构---TCP

赖猫

TCP 后端 高并发 TCP/IP 服务器开发

Java Optimizing 读书笔记(一)

绝影-大数据

Redis 学习笔记 03:字典

架构精进之路

redis 七日更 28天写作

Linux网络之 从 C10K 到 DPDK

赖猫

c++ Linux linux编程 C10K DPDK

Java 程序经验小结:类层次优于标签类

后台技术汇

28天写作

量化交易系统开发

威掂l8929545452

区块链 系统开发 量化交易系统 交易所

OpenYurt v0.3.0 重磅发布:全面提升边缘场景下应用部署效率

阿里巴巴云原生

阿里巴巴 开源 容器 云原生 k8s

百度研究院的追星逐浪,中国科技的奋发自强

脑极体

量化策略交易软件开发|量化策略交易系统APP开发

系统开发

比特币矿机工作原理

v16629866266

比特币 比特币区块链

字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开_字节跳动_字节跳动技术团队_InfoQ精选文章