写点什么

21 天追平 GPT-4o?字节 Seed 玩真格的

  • 2025-04-17
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

大小:416.33K时长:02:22
21 天追平 GPT-4o?字节 Seed 玩真格的

GPT-4o 在 3 月底掀起的“吉卜力”风潮过去还没多久,字节又加入了图像生成竞赛。

 

4 月 15 日,字节 Seed 团队发布了中英双语图像生成基础模型 Seedream 3.0,主要在文本渲染能力增强、美学质量提升、原生高分辨率输出、高效推理成本方面进行了优化。

 

Seedream 3.0 支持原生 2K 分辨率图像生成,无需后处理,同时兼容更高分辨率,适应多种比例输出。在不使用位置编码(PE)情况下,生成一张 1K 分辨率图像仅需约 3 秒,速度远超当前主流商用模型。

 

字节还针对 CT(对比学习)和 SFT(监督微调)阶段的数据,专门训练了多个版本的字幕模型。这些描述模型覆盖了美学、风格、版式等多个专业领域,极大增强了 Seedream 3.0 对提示词的响应能力。

 


Seedream 3.0 继续采用 MMDiT 架构来处理图像和文本的 token。团队采用混合分辨率训练策略,在每一阶段训练中,将不同纵横比和分辨率的图像打包在一起进行训练。为提高泛化能力,团队将 2.0 中的 Scaling RoPE 扩展为“跨模态 RoPE”,进一步增强图文 token 之间的对齐能力。

 

与 2.0 中采用 CLIP 作为奖励模型不同,Seedream 3.0 使用视觉-语言模型(VLMs)作为奖励建模框架,将指令明确地构建为查询(Query),并通过“Yes”响应 token 的归一化概率来计算奖励值。奖励模型的规模也从 10 亿参数扩展到了 200 亿以上。

 

字节在论文中表示,在人工智能评测平台 Artificial Analysis 的公开测试中,Seedream 3.0 在多个维度表现领先,位居图文生成模型榜首,超越 GPT-4o、Midjourney v6.1、Imagen 3 等主流模型。

 




另外,字节还特地跟 GPT-4o 进行了对比。

 

OpenAI 的 GPT-4o 虽具强大多模态能力,但在图像生成方面仍存在短板。对比显示,Seedream 3.0 在中文文本渲染、图像编辑一致性和整体画质上表现更优。

 

GPT-4o 擅长英文小字与符号,但中文排版欠佳;图像编辑功能灵活,却难保原图一致性。SeedEdit 则在保留人物 ID 和提示词遵循上更稳健。画质方面,Seedream 图像更清晰自然,而 GPT-4o 常出现偏色和噪点。





2025-04-17 14:038109

评论

发布
暂无评论

2021年度“CCF-百度松果基金” 百度携手CCF为AI科研提供资金支持

百度大脑

人工智能 百度 松果基金

对象存储手把手教二 | Bucket 跨区域容灾和用户数据复制

QingStor分布式存储

云原生 对象存储 分布式存储 云存储

生命科学领域新工具:北鲲云超算平台,梦启航的地方

北鲲云

百度程序员推荐的书籍,今天免费送!

百度Geek说

GIS可视化框架:更便捷的地图数据可视化工具

鲸品堂

GIS 可视化 应用场景

平安社区建设,潍坊智慧平安社区建设解决方案

突破AI工业化瓶颈,专业数据服务平台化是关键

澳鹏Appen

人工智能 机器学习 数据标注 训练数据 标注平台

Demo

Command

#架构实战营

第一周作业-对比不同公司产品招聘JD

小夏

产品经理训练营 邱岳

隔壁工程师都馋哭了我的逆向工程IDA,说要给我搓背捏脚

网络安全学海

网络安全 信息安全 渗透测试 漏洞分析 逆向工程

《面试八股文》之kafka21卷

moon聊技术

kafka 面试

图像直方图反向投影,Python OpenCV 取经之旅第 28 天

梦想橡皮擦

7月日更

Hive 原理实践

云祁

大数据 hive 7月日更

爱奇艺奇秀直播的秒播体验优化实践

爱奇艺技术产品团队

直播 优化

自建开发工具系列-Webkit内存动量监控UI(一)

Tim

FrontEnd 调试工具 Webkit 工具UI

边界防御·信息安全保密圈的 “丈八蛇矛”

郑州埃文科技

从零开始学习3D可视化之摄像机

ThingJS数字孪生引擎

大前端 可视化 数字孪生

深入浅出 Gitalk 留言插件

悟空聊架构

开源 网站 7月日更 网站建设 留言

如何科学地系统地梳理出CDP的RFP?

Linkflow

Ubuntu Server 20.04搭建zookeeper集群

玏佾

zookeeper 群集安装 搭建 zk 集群部署

为什么公司应该效仿开源的文化

BeeWorks

模块八 - 设计消息队列存储消息数据的 MySQL 表格

华仔架构训练营

网络攻防学习笔记 Day69

穿过生命散发芬芳

网络攻防 7月日更

爱奇艺多语言台词机器翻译技术实践

爱奇艺技术产品团队

机器翻译 nlp 模型 BERT

bzz分币挖矿系统开发需求

获客I3O6O643Z97

区块链+ BZZ节点矿池 BZZ节点挖矿

2021世界人工智能大会开幕 百度飞桨荣获“SAIL之星”奖项

百度大脑

人工智能 飞桨

通过Linux实现更好的即时通讯传递

BeeWorks

阅读

pha挖矿系统源码开发

获客I3O6O643Z97

区块链+ PHA矿机挖矿 PHA质押挖矿

Linkflow CDP亮相GDMS全球数字营销峰会

Linkflow

CDP 用户画像 数字营销

Hive窗口函数保姆级教程

五分钟学大数据

hive 7月日更

hive的安装部署

大数据技术指南

hive 7月日更

21 天追平 GPT-4o?字节 Seed 玩真格的_生成式 AI_Tina_InfoQ精选文章