写点什么

一句话改图!字节豆包通用图像编辑模型 SeedEdit 上线测试

  • 2024-11-11
    北京
  • 本文字数:1362 字

    阅读完需:约 4 分钟

大小:692.66K时长:03:56
一句话改图!字节豆包通用图像编辑模型SeedEdit上线测试

11 月 11 日,字节在豆包大模型团队官网上公布最新通用图像编辑模型 SeedEdit。据悉,SeedEdit 支持一句话轻松改图,包括修图、换装、美化、转化风格、在指定区域添加删除元素等各类编辑操作,通过简单的自然语言即可驱动模型编辑任意图像。目前,该模型已经在豆包 PC 端及即梦网页端开启测试。

 

用户可以在豆包生成图片后,点击继续编辑按钮,输入简单的文本指令对图片背景或主体进行轻松调整,实现一句话改图。例如,用户在生成一张“小狗在草地奔跑”的图片后,可以直接输入“背景换成海边”等指令,获得一张基于原图片的微调图。此外,用户也可以尝试在豆包 PC 或即梦的图像生成功能中自行上传参考图并进行二次加工。


 

据悉,SeedEdit 是国内首个实现产品化的通用图像编辑模型。过往,学术界在文生图和图生图领域已有较多研究,但做好生成图片的指令编辑一直是难题,二次修改很难保证稳定性和生成质量。今年以来,Dalle3、Midjourney 接连推出产品化的生图编辑功能,相较业界此前方案,编辑生成图片的质量大大改善,但仍缺乏对用户编辑指令的精准响应和原图信息保持能力。 

 

字节跳动豆包大模型团队表示,图像编辑任务的关键在于取得“维持原始图像”和“生成新图像”之间的最优平衡,这一理念贯穿了整个模型的设计与优化过程。

 

据介绍,在模型数据生产中, SeedEdit 针对数据稀缺问题,重新设计模型架构,并且采用多模型、多尺度和多标准的数据制造方案很大程度上解决了数据量,数据多样性和数据质量的问题。作为一款专为图像编辑任务设计的模型,SeedEdit 在通用性、可控性、高质量等方面取得了一定突破。

 

此前业界技术主要针对单个专家任务进行优化,比如针对表情、发型、背景的删除或替换,或专门配置工作流进行风格调配,每次出现新的编辑任务均需收集对应数据进行训练开发。而 SeedEdit 作为通用的图像编辑模型,适用各类编辑任务,支持用户脑洞大开的奇思妙想,无需再训练微调即可快捷应用。 它与业界同类方法对比 (如 EMU Edit 和 Ultra Edit),取得显著更优的性能指标。

 

 

HQ-Edit 等基准测评显示:SeedEdit 能理解相对模糊的指令,且执行细致编辑时具有更高的图像保持率和成功率

 

即便在常规任务中,相比专家模型,SeedEdit 也有一定优势。比如,在“抠图”换背景等用户最常用到的图像分割任务中,SeedEdit 编辑生成后的图像风格自然,无“贴图感”;在局部涂抹、编辑、添加和删除元素等任务中,相比手动涂抹编辑, SeedEdit 通过语言指定, 大大节省了用户涂抹的时间,尤其针对裂纹、发丝等相对精细的涂抹区域。

 

 要求图片将草莓替换成柠檬

 

同时,SeedEdit 通过创新的模型架构,多尺度、多规则的数据获取、构造和过滤方案,能更好地理解用户意图并对齐 diffusion 生图模型,极大提高了图像编辑的精准度,并保持了高质量的图片生成效果。


 要求去掉裂纹,让图片变干净

 

基于豆包文生图大模型,目前 SeedEdit 支持中文和英文输入,还可以对中文成语和专有名词进行精准响应。下一步,SeedEdit 还将开放多轮复杂编辑的功能。

 

豆包大模型团队表示,现阶段 SeedEdit 对模型生成图片的编辑效果要好于输入真实图片,同时在更复杂和更精细的控制上仍有改进空间。未来,SeedEdit 会在真实图片保真、ID 保持、编辑精确性、以及长时序的故事类、漫画类生成方面做进一步的优化和探索,提升编辑可用率和用户体验,支持用户更高效地创作有趣的内容。

 

2024-11-11 11:596694

评论

发布
暂无评论
发现更多内容

推动数据中心行业的“水电煤”,可视化如何用数据改变传统产业?

一只数据鲸鱼

机房 数据可视化 数字孪生 智能IDC

oeasy教您玩转vim - 6 - # 保存修改

o

DAPP智能合约系统源码开发

获客I3O6O643Z97

智能合约 DAPP智能合约交易系统开发

增强自动化测试的8大技巧

禅道项目管理

测试 自动化测试

「免费开源」基于Vue和Quasar的前端SPA项目crudapi后台管理系统实战之数据库逆向(十二)

crudapi

Vue crud crudapi quasar 数据库逆向

巨头纷纷布局分布式云,一场新的云战争即将打响

云计算

快来看,大数据两地三中心的容灾也可以如此省心!

华为云开发者联盟

大数据 数据湖 容灾 华为云MRS 两地三中心

【LeetCode】三数之和Java题解

Albert

算法 LeetCode 8月日更

带你读AI论文:SDMG-R结构化提取—无限版式小票场景应用

华为云开发者联盟

语义 多模态 推理模型 SDMG-R 检测文本

TrafficStatsRunnable 实用封装

Changing Lin

8月日更

Vue进阶(十):NPM 管理 node.js 依赖

No Silver Bullet

Vue npm nodejs 8月日更

十大排序算法--快速排序

Ayue、

排序算法 8月日更

这几个棘手的面试常见问题,如何高情商的回答?

架构精进之路

面试 情商 8月日更

Pangaea AI 智能机器人炒币系统开发

获客I3O6O643Z97

量化策略 量化跟单 量化机器人

专业好用的数据恢复软件推荐

淋雨

EasyRecovery 文件恢复 硬盘数据恢复

如何实时打通数据孤岛?Tapdata 创始人唐建法受邀于GOTC深度分享

tapdata

数据库 打通数据孤岛 数据同步 Real Time DaaS GOTC

elaticsearch kibana介绍与安装

Rubble

Go与Redis连接池的那些事儿~

Regan Yue

redis Go 语言 8月日更

只需6步,教你从零开发一个签到小程序

华为云开发者联盟

小程序 App 移动 智慧校园 FunctionGraph

手撸二叉树之路径总和

HelloWorld杰少

数据结构与算法 8月日更

CC挖矿系统源码开发

获客I3O6O643Z97

挖矿 挖矿矿池系统开发案例 fil矿机

Python代码阅读(第4篇):过滤掉列表中的唯一值

Felix

Python 编程 Code Programing 阅读代码

让数据库从业者用实力对美国说不!

博文视点Broadview

Mysql读写锁保姆级图文教程

华为云开发者联盟

MySQL 数据 读写锁 读锁 MyLSAM

2021全球开源技术峰会|IoT 时代的开源数据基础设施

EMQ映云科技

开源 IOT Platform IoT emq 开源技术

论 Erda 的安全之道

尔达Erda

云原生 安全 企业数字化转型 云平台 开发平台

赛迪发布《2020-2021年中国IT服务市场研究年度报告》,联想位居第一梯队

科技大数据

科技互联网

2021第二届云原生编程挑战赛正式启动,抢先报名!

阿里巴巴云原生

阿里云 Serverless RocketMQ 云原生 dubbo

Swift 实现获取、展示 Mac 的 WiFi 密码

fuyoufang

ios swift SwiftUI Mac 软件 8月日更

服务器的升级,不可避免的安全问题

九河云安全

你的工作有弹性么?

escray

学习 极客时间 朱赟的技术管理课 8月日更

一句话改图!字节豆包通用图像编辑模型SeedEdit上线测试_AI&大模型_褚杏娟_InfoQ精选文章