写点什么

21 天追平 GPT-4o?字节 Seed 玩真格的

  • 2025-04-17
    北京
  • 本文字数:819 字

    阅读完需:约 3 分钟

大小:416.33K时长:02:22
21 天追平 GPT-4o?字节 Seed 玩真格的

GPT-4o 在 3 月底掀起的“吉卜力”风潮过去还没多久,字节又加入了图像生成竞赛。

 

4 月 15 日,字节 Seed 团队发布了中英双语图像生成基础模型 Seedream 3.0,主要在文本渲染能力增强、美学质量提升、原生高分辨率输出、高效推理成本方面进行了优化。

 

Seedream 3.0 支持原生 2K 分辨率图像生成,无需后处理,同时兼容更高分辨率,适应多种比例输出。在不使用位置编码(PE)情况下,生成一张 1K 分辨率图像仅需约 3 秒,速度远超当前主流商用模型。

 

字节还针对 CT(对比学习)和 SFT(监督微调)阶段的数据,专门训练了多个版本的字幕模型。这些描述模型覆盖了美学、风格、版式等多个专业领域,极大增强了 Seedream 3.0 对提示词的响应能力。

 


Seedream 3.0 继续采用 MMDiT 架构来处理图像和文本的 token。团队采用混合分辨率训练策略,在每一阶段训练中,将不同纵横比和分辨率的图像打包在一起进行训练。为提高泛化能力,团队将 2.0 中的 Scaling RoPE 扩展为“跨模态 RoPE”,进一步增强图文 token 之间的对齐能力。

 

与 2.0 中采用 CLIP 作为奖励模型不同,Seedream 3.0 使用视觉-语言模型(VLMs)作为奖励建模框架,将指令明确地构建为查询(Query),并通过“Yes”响应 token 的归一化概率来计算奖励值。奖励模型的规模也从 10 亿参数扩展到了 200 亿以上。

 

字节在论文中表示,在人工智能评测平台 Artificial Analysis 的公开测试中,Seedream 3.0 在多个维度表现领先,位居图文生成模型榜首,超越 GPT-4o、Midjourney v6.1、Imagen 3 等主流模型。

 




另外,字节还特地跟 GPT-4o 进行了对比。

 

OpenAI 的 GPT-4o 虽具强大多模态能力,但在图像生成方面仍存在短板。对比显示,Seedream 3.0 在中文文本渲染、图像编辑一致性和整体画质上表现更优。

 

GPT-4o 擅长英文小字与符号,但中文排版欠佳;图像编辑功能灵活,却难保原图一致性。SeedEdit 则在保留人物 ID 和提示词遵循上更稳健。画质方面,Seedream 图像更清晰自然,而 GPT-4o 常出现偏色和噪点。





2025-04-17 14:038172

评论

发布
暂无评论

CRISP-DM的应用与理解

天翼云开发者社区

数据挖掘 CRISP-DM

ps2224最新版,Photoshop 2024(Win&Mac) 软件下载

你的猪会飞吗

PS2024破解 mac破解软件下载 ps2024中文

万界星空科技MES系统如何帮助企业降低成本

万界星空科技

工业互联网 制造业 生产管理系统 mes 智能制造业

无需推翻既有的建设,这个可观测性产品思路清奇

巴辉特

监控 可观测性 Prometheus 故障定位

淘宝店铺所有商品数据接口怎么获取

tbapi

淘宝API接口 淘宝店铺所有商品数据接口

观测云核心技术揭秘:基于时间的半结构化数据模型

观测云

数据结构

与客户建立联系,成为企业战略决策的引领者

智达方通

全面预算管理 财务管理 客户关系

私有云服务器虚拟化超分比及资源扩容管理

天翼云开发者社区

云计算 服务器 虚拟化

HBlock应用实践与性能测试:解锁老旧服务器存储潜力,打造高效稳定的存储集群

Geek_2dc40b

HBlock 老旧服务器盘活

河南大学OpenHarmony技术俱乐部正式揭牌成立

科技热闻

海外直播带货,怎样确保网络稳定流畅

Ogcloud

海外直播专线 海外直播 直播专线 海外直播网络 tk直播专线

TikTok直播限流与网络有关系吗?怎么解决?

Ogcloud

海外直播专线 海外直播 tiktok直播专线 海外直播网络 tiktok直播网络

小白学深度学习:知识蒸馏研究综述

阿里云天池

解析淘宝商品详情API返回值中的关键属性

代码忍者

云原生主键模型:高效、弹性,省钱又省心

StarRocks

数据库 大数据 存算分离 存算分离架构 湖仓一体

关联比赛:  Apache Flink极客挑战赛——Flink TPC-DS性能优化

阿里云天池

MetaLlama大模型

霍格沃兹测试开发学社

新手使用住宅代理有哪些常见误区?

IPIDEA全球HTTP

金九银十来了,你的简历写好了么?

不在线第一只蜗牛

程序员 前端

人工智能 | MetaLlama大模型

测试人

人工智能 软件测试

GPU虚拟化技术简介:实现高性能图形处理的灵活部署

天翼云开发者社区

云计算 gpu 虚拟化技术

算网资源调度关键技术

天翼云开发者社区

云计算 云服务

NFTScan | 08.26~09.02 NFT 市场热点汇总

NFT Research

NFT\ NFTScan

智能体进化发展了一年,现在的RPA Agent迭代到什么程度了?

王吉伟频道

RPA 智能体 大语言模型 AI Agent RPA Agent

《有恃无恐》

充实的orzi

#小说 #艺术来源于现实

NocoBase 与百事通:为法律行业带来全新变革

NocoBase

低代码 无代码 客户案例

通义灵码使用安装教程,3分钟快速上手体验

阿里巴巴云原生

阿里云 云原生 通义灵码

21 天追平 GPT-4o?字节 Seed 玩真格的_生成式 AI_Tina_InfoQ精选文章