字节Seedream 3.0追平GPT-4o入文生图第一梯队！即梦、豆包全量上线，技术报告公开

文生图领域权威的第三方榜单 Artificial Analysis 竞技场发布消息称，字节跳动Seed 团队图像生成模型 Seedream 3.0 综合性能已追平文生图 SOTA 模型 GPT-4o，稳定超越 Recraft V3、Ideogram、Imagen 3、Midjourney V6.1 等模型，进入全球第一梯队。

Seedream 3.0 是字节近日发布的新一代文生图主力模型，目前已在即梦、豆包等平台全量开放。据 Seedream 3.0 技术报告，Seedream3.0 是一个原生高分辨率、支持中英双语的图像生成基础模型，无需后处理即可实现 2K 分辨率图像直出，适配多比例场景，同时针对小字体高保真生成、多行文本排版等业界难题，模型也取得了突破性的效果表现。

值得一提的是，Seedream 3.0 在 3 秒左右即可快速生成 1K 分辨率的高品质内容，相比之下，业界同类模型生成该分辨率内容的耗时基本在 10 秒以上，而此前文生图 SOTA 模型 GPT-4o 平均耗时为 77 秒。

图注：Seedream3.0 技术报告中评测结果

豆包大模型团队推文介绍称，Seedream3.0 研发始于 2024 年末，通过调研设计师等群体的实际需求，团队不仅将图文匹配、结构、美感等行业共识性指标纳入攻坚方向，同时，也将挑战小字生成与复杂文本排版、2K 高清直出、快速图片生成等难题作为核心目标。

针对 2K 分辨率、多尺寸图像直出能力实现，团队借助了 Transformers 架构对变长输入序列的灵活处理能力，在从 512x512 到 2048x2048 的多种分辨率和不同长宽比上混合训练，让模型实现不经过额外深加工的高清直出，同时也支持多种分辨率输出。

为支持快速生成高品质图像，模型采用自研推理加速算法，依靠一致性噪声预测，叠加重要时间步采样，最终实现对模型的无损加速。在保障图文匹配、美学质量、结构准确度等指标的前提下，Seedream 3.0 生成 1K 分辨率图像仅需 3 秒。

图注：Seedream3.0 输出图像细节丰富，蝴蝶绒毛根根分明

Seedream3.0 还大幅提升了小字体高保真生成、多行文本语义排版表现，满足设计师对海报设计的需求。团队在预训练阶段，引入跨模态旋转位置编码，补足传统方法模态特征对齐短板，进一步加强了文字渲染能力。

图注：Seedream3.0 模型可完成小字生成、多行文本排版，并兼顾画面美感

据 Seedream 团队介绍，相比此前 2.0 版本，Seedream 3.0 在数据和 RLHF 阶段也使用了全新方案。团队采用缺陷感知的训练策略，使有效数据集扩充超过 20%，同时设计了精准的美感描述维度，并进一步拓展 RLHF 奖励模型，使 Seedream 3.0 具备多维度质量判别能力，综合性能大幅提升。

图注：Seedream3.0 在美感等方面较 2.0 进一步提升

Seedream 团队表示，“新模型在海报创作、生成效率、结构与美感等方面取得了明显进步，但在生成可用性、美感与结构、智能化方面仍有提升空间。”

据了解，未来，团队计划探索更高效的结构设计，包括构建效果更好、成本更低、生成更快的文生图模型，并进一步拓展模型对世界知识的理解，赋予模型交织生成等能力。同时，团队也计划探索数据、模型量级、奖励模型等维度的 Scaling 现象，将认知积累应用于下一代模型中。

Seedream 3.0 技术报告：https://arxiv.org/abs/2504.11346

Seedream 3.0 官方网页：https://team.doubao.com/zh/tech/seedream3_0

创作场景

字节 Seedream 3.0 追平 GPT-4o 入文生图第一梯队！即梦、豆包全量上线，技术报告公开