50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

苹果发布 Pico-Banana-400K 数据集,用于构建文本引导的图像编辑模型

作者:Sergio De Simone

  • 2025-11-06
    北京
  • 本文字数:1153 字

    阅读完需:约 4 分钟

大小:580.33K时长:03:18
苹果发布 Pico-Banana-400K 数据集,用于构建文本引导的图像编辑模型

Pico-Banana-400K 是由苹果研究人员构建一个图像数据集,包含了 40 万张图像,用于更轻松地创建文本引导的图像编辑模型。这些图像基于 Open Images 收藏集合中的真实图像生成,使用谷歌的 Nano-Banana 进行了修改,并通过 Gemini-2.5-Pro 根据其整体质量和提示词一致性进行了筛选。


研究人员指出,该数据集是为了填补大规模、高质量且完全可共享图像编辑数据集的空白。现有的替代方案要么是由人工策划,在规模上受到限制,要么是完全合成的,依赖于像 GPT-4o 这样的专有模型。


Pico-Banana-400K 与以往合成数据集的区别在于我们对质量和多样性的系统化追求。我们采用了更精细的图像编辑分类法,确保涵盖了各种编辑类型,同时通过基于 MLLM 的质量评分机制以及严谨的策划流程确保精确的内容保留和指令一致性。


如上所述,研究人员首先从 Open Images 中选择了一些真实照片,包括人物、物体和文字场景。然后,他们设计了一组编辑提示词,并用它们驱动 Nano-Banana 对照片进行相应的编辑处理。最后,他们使用 Gemini-2.5-Pro 对编辑结果进行分析,筛选出失败的编辑,或者对相关提示进行重新调整以优化编辑效果。他们依据一套明确的评估标准来判定编辑的成功与否,这些标准包括:指令一致性(占比 40%)、编辑逼真度(占比 25%)、内容保留平衡(占比 20%)以及技术质量(占比 15%)。


大约有 56000 生成的图像被保留作为失败案例,用于模型的鲁棒性测试和偏好学习研究。



研究人员设计了 35 种编辑类型,分为八个类别,包括像素和光度调整(例如,改变整体色调)、对象级语义(例如,重新定位对象,改变对象颜色)、场景构图(例如,添加新背景)、风格转换(例如,将照片转换为素描)等。


这些提示词本身是使用 Gemini-2.5-Flash 生成的。在系统提示词中,模型被要求“编写一个用户可能给图像编辑模型的简洁的自然语言指令……注意可见内容(对象、颜色、位置)并与图像内容密切相关”。然后,使用 Qwen2.5-7B-Instruct 将生成的较长的提示词提炼为更短、更贴近人类表达的提示词,从而获得更逼真的结果。


除了包含使用单轮文本——图像——编辑提示词创建的 257000 张图像的主数据集外,Pico-Banana-400K 还包含了三个专门的子集合。第一个子集合包含 72000 个示例,涵盖多轮指令,用于研究连续修改过程中的顺序编辑、推理和规划能力。第二个包含 56000 个示例,主要是失败的图像,用于对齐研究和奖励模型训练。第三个子集将长编辑指令与短编辑指令配对,为指令重写和总结能力的开发提供支持。


Pico-Banana-400K 数据集可以在 GitHub 上获取,采用了知识共享署名非商业性使用禁止演绎(CC BY-NC-ND 4.0)许可,而 Open Images 原图则是基于 CC BY 2.0 许可。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/11/apple-pico-banana-image-editin

2025-11-06 11:001

评论

发布
暂无评论

科技助力新冠防疫——构建 COVID-19 知识图谱

亚马逊云科技 (Amazon Web Services)

Data

用链式调用的方式来给代码减负

为自己带盐

dotnet 28天写作 12月日更

张家口赛区全力推进,数字人民币备战冬奥场景全覆盖

CECBC

我的记忆心法拆解一

将军-技术演讲力教练

为什么 SASE 很重要?

devpoint

SD-WAN sase 12月日更

React vs Angular vs Vue.js 那个前端框架更好

编程江湖

前端开发 Javascript框架

给弟弟的信第20封|珍爱生命,远离传销

大菠萝

28天写作

The Data Way Vol.8|离开了代码,还能被称为工程师吗?

SphereEx

开源 ShardingSphere SphereEx OpenSEC 工程师文化

HIVE中临时表创建

编程江湖

大数据 Hive SQL

数字人民币成功落地需破解三大难点

CECBC

需求蔓延,常见但不正常,教你如何破

华为云开发者联盟

敏捷 需求

前端开发之Nginx单页加载优化

@零度

nginx 前端开发

netty系列之:一口多用,使用同一端口运行不同协议

程序那些事

Java Netty nio 程序那些事 12月日更

阿里云弹性计算首席架构师分享云上应用架构演进三大方向

阿里云弹性计算

OceanBase 联合山东移动斩获殊荣:入选2021年信息技术应用创新安全优秀解决方案

OceanBase 数据库

信息安全 工信部 oceanbase 获奖 山东移动

边缘AI研发落地生态挑战调研报告

华为云开发者联盟

机器学习 AI 边缘

云图说|初识ModelArts开发者生态社区——AI Gallery

华为云开发者联盟

华为云 AI Gallery 云图说 ModelArts 开发者生态社区

40张图+万字,从9个数据类型帮你稳稳的拿捏Redis 数据结构

华为云开发者联盟

数据库 redis 数据结构 Redis 数据结构

quest2上手初体验

wood

28天写作 元宇宙 quest2

2021 年 25 大 DevOps 工具(上)

禅道项目管理

DevOps 工具

揭秘远程证明架构EAA:机密容器安全部署的最后一环 | 龙蜥技术

OpenAnolis小助手

容器 龙蜥社区

为Amazon DMS数据库迁移任务建立自动化监控机制

亚马逊云科技 (Amazon Web Services)

Data

关于Amazon Redshift性能调优的十大Tips

亚马逊云科技 (Amazon Web Services)

Data

重磅消息 | Amazon MemoryDB for Redis闪亮登场!

亚马逊云科技 (Amazon Web Services)

Data

求适借力,共生共强|明道云伙伴大会(2021/秋)完满落幕

明道云

Java 开发之Linux 命令知识的积累

@零度

Java linux命令

区块链的价值和未来趋势

CECBC

身兼数职的Amazon DocumentDB,还有什么不为人知的功能?

亚马逊云科技 (Amazon Web Services)

Data

Java 性能调优必备利器—JMH

编程江湖

JMH java编程

干货来了!神州数码 CIO 沈旸揭秘 Hackathon 背后的 TiDB 生态丨TiDB Hackathon 评委访谈

PingCAP

让自家APP跑小程序的技术产品都有哪些?

Speedoooo

ios开发 APP开发 容器安全 Andriod开发 小程序容器

苹果发布 Pico-Banana-400K 数据集,用于构建文本引导的图像编辑模型_后端_InfoQ精选文章