写点什么

一句话改图!字节豆包通用图像编辑模型 SeedEdit 上线测试

  • 2024-11-11
    北京
  • 本文字数:1362 字

    阅读完需:约 4 分钟

大小:692.66K时长:03:56
一句话改图!字节豆包通用图像编辑模型SeedEdit上线测试

11 月 11 日,字节在豆包大模型团队官网上公布最新通用图像编辑模型 SeedEdit。据悉,SeedEdit 支持一句话轻松改图,包括修图、换装、美化、转化风格、在指定区域添加删除元素等各类编辑操作,通过简单的自然语言即可驱动模型编辑任意图像。目前,该模型已经在豆包 PC 端及即梦网页端开启测试。

 

用户可以在豆包生成图片后,点击继续编辑按钮,输入简单的文本指令对图片背景或主体进行轻松调整,实现一句话改图。例如,用户在生成一张“小狗在草地奔跑”的图片后,可以直接输入“背景换成海边”等指令,获得一张基于原图片的微调图。此外,用户也可以尝试在豆包 PC 或即梦的图像生成功能中自行上传参考图并进行二次加工。


 

据悉,SeedEdit 是国内首个实现产品化的通用图像编辑模型。过往,学术界在文生图和图生图领域已有较多研究,但做好生成图片的指令编辑一直是难题,二次修改很难保证稳定性和生成质量。今年以来,Dalle3、Midjourney 接连推出产品化的生图编辑功能,相较业界此前方案,编辑生成图片的质量大大改善,但仍缺乏对用户编辑指令的精准响应和原图信息保持能力。 

 

字节跳动豆包大模型团队表示,图像编辑任务的关键在于取得“维持原始图像”和“生成新图像”之间的最优平衡,这一理念贯穿了整个模型的设计与优化过程。

 

据介绍,在模型数据生产中, SeedEdit 针对数据稀缺问题,重新设计模型架构,并且采用多模型、多尺度和多标准的数据制造方案很大程度上解决了数据量,数据多样性和数据质量的问题。作为一款专为图像编辑任务设计的模型,SeedEdit 在通用性、可控性、高质量等方面取得了一定突破。

 

此前业界技术主要针对单个专家任务进行优化,比如针对表情、发型、背景的删除或替换,或专门配置工作流进行风格调配,每次出现新的编辑任务均需收集对应数据进行训练开发。而 SeedEdit 作为通用的图像编辑模型,适用各类编辑任务,支持用户脑洞大开的奇思妙想,无需再训练微调即可快捷应用。 它与业界同类方法对比 (如 EMU Edit 和 Ultra Edit),取得显著更优的性能指标。

 

 

HQ-Edit 等基准测评显示:SeedEdit 能理解相对模糊的指令,且执行细致编辑时具有更高的图像保持率和成功率

 

即便在常规任务中,相比专家模型,SeedEdit 也有一定优势。比如,在“抠图”换背景等用户最常用到的图像分割任务中,SeedEdit 编辑生成后的图像风格自然,无“贴图感”;在局部涂抹、编辑、添加和删除元素等任务中,相比手动涂抹编辑, SeedEdit 通过语言指定, 大大节省了用户涂抹的时间,尤其针对裂纹、发丝等相对精细的涂抹区域。

 

 要求图片将草莓替换成柠檬

 

同时,SeedEdit 通过创新的模型架构,多尺度、多规则的数据获取、构造和过滤方案,能更好地理解用户意图并对齐 diffusion 生图模型,极大提高了图像编辑的精准度,并保持了高质量的图片生成效果。


 要求去掉裂纹,让图片变干净

 

基于豆包文生图大模型,目前 SeedEdit 支持中文和英文输入,还可以对中文成语和专有名词进行精准响应。下一步,SeedEdit 还将开放多轮复杂编辑的功能。

 

豆包大模型团队表示,现阶段 SeedEdit 对模型生成图片的编辑效果要好于输入真实图片,同时在更复杂和更精细的控制上仍有改进空间。未来,SeedEdit 会在真实图片保真、ID 保持、编辑精确性、以及长时序的故事类、漫画类生成方面做进一步的优化和探索,提升编辑可用率和用户体验,支持用户更高效地创作有趣的内容。

 

2024-11-11 11:595680

评论

发布
暂无评论
发现更多内容

赛博威 AI Agent 赋能营销费用管理,实现自主感知、决策与高效行动

赛博威科技

AI 数字营销 AI Agent 赛博威

萨科微宋仕强,在人工智能Ai大模型文本写作的试用与反思!

科技汇

AI 正以颠覆性力量重塑商品管理的底层逻辑

第七在线

WebGL开发框架的比较

北京木奇移动技术有限公司

软件外包公司 webgl开发 webgl外包开发

破局多语之邦,如何让AI听懂印度方言?

数据堂

人工智能 AI 数据 印度 印度互联网

vivo 官网 APP 首页端智能业务实践

vivo互联网技术

深度学习 算法 前端

AI技术在英语口语学习中的应用

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

SQL Server 2025 - 从本地到云端的 AI 就绪企业数据库

sysin

SQL Server

前端热更新:无声革命重构中国互联网开发模式

xuyinyin

浅谈企业应用中台的构建

天翼云开发者社区

企业应用中台

【CodeBuddy】三分钟开发一个实用小功能之:马赛克生成器

jimaks

CSS

告别静态UI!Guineration用AI打造用户专属动态界面

鼎道智联

Microchip扩展连接、存储与计算产品组合,以满足AI数据中心应用日益增长的需求

新消费日报

企业级AI搜索解决方案:阿里云AI搜索开放平台

阿里云大数据AI技术

云计算 大数据 阿里云 信息搜集 AI 搜索引擎

性能王者!天翼云再次拿下世界第一

天翼云开发者社区

云平台 算力 天翼云

一文快速了解 YMatrix 与 Greenplum 的相同与不同

YMatrix 超融合数据库

数据库 greenplum 迁移数据 YMatrix

浪潮海岳inSuite 5.0标准版重磅发布,赋能中小企业数智化转型再提速

浪潮海岳inSuite

如何将CAD图纸直接导出为工程蓝图?

在路上

cad cad看图 CAD看图王

NocoBase 本周更新汇总:模板打印支持批量打印

NocoBase

开源 低代码 零代码 版本更新 模板打印

【FAQ】HarmonyOS SDK 闭源开放能力 —Live View Kit (3)

HarmonyOS SDK

harmoyos

WebGL开发框架的性能比较

北京木奇移动技术有限公司

软件外包公司 webgl外包开发 webgl开发公司

MySQL派生条件下推优化导致自定义变量结果错误问题分析

GreatSQL

CAD如何导出PDF?PDF如何转CAD?详细教程来了

在路上

cad cad看图 CAD看图软件

HDD•鸿蒙赋能交流会模式升级!“培训+班级”开启长效学习进阶之路

最新动态

AI赋能,赛博威「营销+上市+产品」三线并行产品创新协同平台加速爆品上市!

赛博威科技

数字营销 赛博威 产品创新协同平台

为什么政府单位、事业单位要用自己的内网即时通讯软件?

BeeWorks

即时通讯 IM

大厂外包VS小公司,你会怎么选?

王中阳Go

Go 外包 小公司

展位预定倒计时!500+企业云集,西部不容错过的电子行业盛会

AIOTE智博会

电子展 电子信息展 成都电子展 西部电子展

比特币BTC是对草根最友好的加密资产,大胆持有,坚定抄底!

区块链项目一站式包装孵化

深入浅出DDD:从理论到落地的关键

百度Geek说

Go 后端

天翼云牵头编制国家标准,共建行业技术标杆!

天翼云开发者社区

云计算 科学计算 智能计算 天翼云

一句话改图!字节豆包通用图像编辑模型SeedEdit上线测试_AI&大模型_褚杏娟_InfoQ精选文章