写点什么

字节 Seedream 3.0 追平 GPT-4o 入文生图第一梯队!即梦、豆包全量上线,技术报告公开

字节跳动

  • 2025-04-16
    北京
  • 本文字数:1261 字

    阅读完需:约 4 分钟

大小:646.25K时长:03:40
字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开

文生图领域权威的第三方榜单 Artificial Analysis 竞技场发布消息称,字节跳动Seed 团队图像生成模型 Seedream 3.0 综合性能已追平文生图 SOTA 模型 GPT-4o,稳定超越 Recraft V3、Ideogram、Imagen 3、Midjourney V6.1 等模型,进入全球第一梯队。

 


Seedream 3.0 是字节近日发布的新一代文生图主力模型,目前已在即梦、豆包等平台全量开放。据 Seedream 3.0 技术报告,Seedream3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型,无需后处理即可实现 2K 分辨率图像直出,适配多比例场景,同时针对小字体高保真生成、多行文本排版等业界难题,模型也取得了突破性的效果表现。

 

值得一提的是,Seedream 3.0 在 3 秒左右即可快速生成 1K 分辨率的高品质内容,相比之下,业界同类模型生成该分辨率内容的耗时基本在 10 秒以上,而此前文生图 SOTA 模型 GPT-4o 平均耗时为 77 秒。

 

图注:Seedream3.0 技术报告中评测结果

 

豆包大模型团队推文介绍称,Seedream3.0 研发始于 2024 年末,通过调研设计师等群体的实际需求,团队不仅将图文匹配、结构、美感等行业共识性指标纳入攻坚方向,同时,也将挑战小字生成与复杂文本排版、2K 高清直出、快速图片生成等难题作为核心目标。

 

针对 2K 分辨率、多尺寸图像直出能力实现,团队借助了 Transformers 架构对变长输入序列的灵活处理能力,在从 512x512 到 2048x2048 的多种分辨率和不同长宽比上混合训练,让模型实现不经过额外深加工的高清直出,同时也支持多种分辨率输出。

 

为支持快速生成高品质图像,模型采用自研推理加速算法,依靠一致性噪声预测,叠加重要时间步采样,最终实现对模型的无损加速。在保障图文匹配、美学质量、结构准确度等指标的前提下,Seedream 3.0 生成 1K 分辨率图像仅需 3 秒。

 

图注:Seedream3.0 输出图像细节丰富,蝴蝶绒毛根根分明

 

Seedream3.0 还大幅提升了小字体高保真生成、多行文本语义排版表现,满足设计师对海报设计的需求。团队在预训练阶段,引入跨模态旋转位置编码,补足传统方法模态特征对齐短板,进一步加强了文字渲染能力。

 

图注:Seedream3.0 模型可完成小字生成、多行文本排版,并兼顾画面美感

 

据 Seedream 团队介绍,相比此前 2.0 版本,Seedream 3.0 在数据和 RLHF 阶段也使用了全新方案。团队采用缺陷感知的训练策略,使有效数据集扩充超过 20%,同时设计了精准的美感描述维度,并进一步拓展 RLHF 奖励模型,使 Seedream 3.0 具备多维度质量判别能力,综合性能大幅提升。

 

图注:Seedream3.0 在美感等方面较 2.0 进一步提升

 

Seedream 团队表示,“新模型在海报创作、生成效率、结构与美感等方面取得了明显进步,但在生成可用性、美感与结构、智能化方面仍有提升空间。”

 

据了解,未来,团队计划探索更高效的结构设计,包括构建效果更好、成本更低、生成更快的文生图模型,并进一步拓展模型对世界知识的理解,赋予模型交织生成等能力。同时,团队也计划探索数据、模型量级、奖励模型等维度的 Scaling 现象,将认知积累应用于下一代模型中。

 

Seedream 3.0 技术报告:https://arxiv.org/abs/2504.11346

Seedream 3.0 官方网页:https://team.doubao.com/zh/tech/seedream3_0

2025-04-16 15:3511525

评论

发布
暂无评论

ABAP 简易弹出输出/输入框

Jasen Ye

Input abap decide CONFIRM

【前端架构必备】手摸手带你搭建一个属于自己的脚手架

战场小包

前端 脚手架 3月月更

「架构实战营」模块九《十万级到亿万级 IM 架构实战》作业

DaiChen

作业 「架构实战营」 模块九

【模块六】拆分电商系统为微服务

yhjhero

#架构训练营

关于技术团队的考核(24/100)

hackstoic

技术管理

css

wudaxue

AppCube低代码快速开发健康打卡应用

DS小龙哥

3月月更

常见的反爬措施:UA反爬和Cookie反爬

华为云开发者联盟

Python 爬虫 Python爬虫 反爬虫 Cookie反爬虫

时间轮原理及其在框架中的应用

vivo互联网技术

服务器 时间轮

一文带你了解 Python 中的装饰器

踏雪痕

Python 装饰器 3月程序媛福利 3月月更

重学架构之拆分电商系统为微服务

陈华英

架构实战营

Ant Design Landing

云原生

SaaS React Ant Design Landing page

浏览器原理

wudaxue

【高并发】解密导致并发问题的第二个幕后黑手——原子性问题

冰河

并发编程 多线程 协程 异步编程 精通高并发系列

AliSSR 语音超分算法:让在线会议语音更明亮更自然

阿里云CloudImagine

阿里云 音视频 智能降噪 音频3A 音频算法

模块九作业-设计电商秒杀系统

CH

架构实战营

表数据都删了一半,可我的表文件咋还是那么大

华为云开发者联盟

MySQL 文件 innodb 数据页

电商系统微服务拆分

tom

「架构实战营」毕业总结

DaiChen

「架构实战营」

模块六作业

blazar

「架构实战营」

电商系统微服务拆分实践

IT屠狗辈

微服务 架构实战营 电商系统架构 架构拆分

DDD实战(6):战略设计之技术决策

深清秋

DDD 软件架构 生鲜电商系统 3月月更

适合 Kubernetes 初学者的一些实战练习(一)

汪子熙

云原生 #Kubernetes# Kubernetes 集群 Serverless Kubernetes 3月月更

一文了解MySQL的Buffer Pool

华为云开发者联盟

MySQL 缓存 缓冲池 Buffer Pool 脏页

什么是分支模式 ? 各(类)分支正确的使用方式

阿里云云效

云计算 阿里云 云原生 Feature 分支模式

电商系统微服务拆分

Geek_8d5fe5

「架构实战营」

云原生-模块十二

hunk

模块六作业-拆分电商系统为微服务

浪飞

Java中的序列化安全漏洞梳理

陈德伟

Java 安全 编程语言、 序列化机制

模块六作业

Leo

架构实战营

Vue

wudaxue

字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开_字节跳动_字节跳动技术团队_InfoQ精选文章