写点什么

21 天追平 GPT-4o?字节 Seed 玩真格的

  • 2025-04-17
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

大小:416.33K时长:02:22
21 天追平 GPT-4o?字节 Seed 玩真格的

GPT-4o 在 3 月底掀起的“吉卜力”风潮过去还没多久,字节又加入了图像生成竞赛。

 

4 月 15 日,字节 Seed 团队发布了中英双语图像生成基础模型 Seedream 3.0,主要在文本渲染能力增强、美学质量提升、原生高分辨率输出、高效推理成本方面进行了优化。

 

Seedream 3.0 支持原生 2K 分辨率图像生成,无需后处理,同时兼容更高分辨率,适应多种比例输出。在不使用位置编码(PE)情况下,生成一张 1K 分辨率图像仅需约 3 秒,速度远超当前主流商用模型。

 

字节还针对 CT(对比学习)和 SFT(监督微调)阶段的数据,专门训练了多个版本的字幕模型。这些描述模型覆盖了美学、风格、版式等多个专业领域,极大增强了 Seedream 3.0 对提示词的响应能力。

 


Seedream 3.0 继续采用 MMDiT 架构来处理图像和文本的 token。团队采用混合分辨率训练策略,在每一阶段训练中,将不同纵横比和分辨率的图像打包在一起进行训练。为提高泛化能力,团队将 2.0 中的 Scaling RoPE 扩展为“跨模态 RoPE”,进一步增强图文 token 之间的对齐能力。

 

与 2.0 中采用 CLIP 作为奖励模型不同,Seedream 3.0 使用视觉-语言模型(VLMs)作为奖励建模框架,将指令明确地构建为查询(Query),并通过“Yes”响应 token 的归一化概率来计算奖励值。奖励模型的规模也从 10 亿参数扩展到了 200 亿以上。

 

字节在论文中表示,在人工智能评测平台 Artificial Analysis 的公开测试中,Seedream 3.0 在多个维度表现领先,位居图文生成模型榜首,超越 GPT-4o、Midjourney v6.1、Imagen 3 等主流模型。

 




另外,字节还特地跟 GPT-4o 进行了对比。

 

OpenAI 的 GPT-4o 虽具强大多模态能力,但在图像生成方面仍存在短板。对比显示,Seedream 3.0 在中文文本渲染、图像编辑一致性和整体画质上表现更优。

 

GPT-4o 擅长英文小字与符号,但中文排版欠佳;图像编辑功能灵活,却难保原图一致性。SeedEdit 则在保留人物 ID 和提示词遵循上更稳健。画质方面,Seedream 图像更清晰自然,而 GPT-4o 常出现偏色和噪点。





2025-04-17 14:037913

评论

发布
暂无评论

linux防火墙iptables常用操作笔记,java开发手册百度网盘

Java 程序员 后端

JVM内存溢出分析:堆内存溢出+虚拟机,BTAJ大厂最新面试题汇集

Java 程序员 后端

Kubernetes 常用命令大全,震撼来袭免费下载

Java 程序员 后端

JVM总体概述,java高级开发面试经验

Java 程序员 后端

JVM篇:对象的深度剖析,mybatis入门程序

Java 程序员 后端

Kafka-on-Pulsar 的前世今生,新秀 Pulsar 到底好在哪?

Java 程序员 后端

kubebuilder实战之三:基础知识速览,mybatis运行原理步骤

Java 程序员 后端

Kubernetes官方java客户端之六:OpenAPI基本操作

Java 程序员 后端

JDK的前世今生:细数 Java5 - 15 的那些经典特性

Java 程序员 后端

架构实战营 毕业总结

脉醉

JUnit5学习之三:Assertions类,java微服务架构训练营

Java 程序员 后端

kubernetes部署metrics-server,linux服务器教程

Java 程序员 后端

linux常用命令(一),阿里java面试算法

Java 程序员 后端

Mac下vagrant从安装到体验,经典实战教程

Java 程序员 后端

模块二作业

小鹿

Java高级特性之 IO流,java面试题高级

Java 程序员 后端

Kafka性能调优实战:同等资源配置性能提升20几倍的秘诀

Java 程序员 后端

Kurento实战之一:KMS部署和体验,应届毕业生java面试准备

Java 程序员 后端

Java高级特性之 IO流(1),三面蚂蚁金服(交叉面)定级阿里P6

Java 程序员 后端

JMM - Java 内存模型,java读写锁源码分析

Java 程序员 后端

Contour-v1.19.1发布

远鹏

golang Kubernetes cncf envoy contour

java面试题,mybatis原理和实现机制

Java 程序员 后端

Java高手是怎样炼成的?阿里P8技术大牛这份手写笔记告诉你答案!

Java 程序员 后端

Kubernetes任务调用Job与CronJob及源码分析(1)

Java 程序员 后端

Linux服务器端网络抓包和分析实战,中高级Java面试题目汇总解答

Java 程序员 后端

JUnit5学习之一:基本操作,菜鸟教程java在线编辑器下载

Java 程序员 后端

Kotlin之DSL,java面试写代码

Java 程序员 后端

架构营模块二作业

GTiger

架构实战营

leetcode 数组练习,java入门书籍

Java 程序员 后端

【架构训练营】毕业总结

zclau

Jedis入门教程,java入门课程百度网盘

Java 程序员 后端

21 天追平 GPT-4o?字节 Seed 玩真格的_生成式 AI_Tina_InfoQ精选文章