把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

谷歌推出 Gemini 2.5 Flash Image,具备高级编辑和一致性功能

作者:Robert Krzaczyński

  • 2025-09-04
    北京
  • 本文字数:863 字

    阅读完需:约 3 分钟

大小:422.87K时长:02:24
谷歌推出Gemini 2.5 Flash Image,具备高级编辑和一致性功能

谷歌发布了最新的图像生成和编辑模型 Gemini 2.5 Flash Image(昵称 nano-banana)。与早期的 Flash 模型相比,该系统引入了几项升级,包括跨提示的角色一致性、多图像融合、基于提示的精确编辑以及用于语义理解的世界知识集成。

 

该版本是谷歌 Gemini 2.5 系列的一部分,该系列将 Flash 模型从文本扩展到图像生成。Gemini 2.0 Flash 主要以其速度和效率得到认可,但其图像生成功能在质量和编辑精度方面受到限制。Gemini 2.5 Flash Image 在这些方面进行了改进,增加了一些工具,使其在快速实验和结构化创意工作流程中更加实用。

 

Gemini 2.5 Flash Image 的一个技术重点是角色一致性,这是生成模型中的一个常见困难。它的目的是在多个提示或编辑中保持相同主题的可识别性,例如,在场景之间移动角色时,从不同的角度显示产品时,或生成标准化的视觉资产时。

 

该模型还支持基于提示的图像编辑,用户可以用自然语言描述特定的变化。典型的操作包括背景调整,物体移除或替换,或修改细节,如主体的姿势。此外,多图像融合功能允许来自多个输入的特征组合成单个结果。

 

Gemini 2.5 Flash Image 还受益于世界知识整合,使其在需要语义推理的场景中具有优势。谷歌已经演示了一些示例,例如阅读和解释手绘图表,为房地产列表调整模板,以及协助结合视觉和文本理解的教育任务。

 

工业设计师 Thomas Broen分享了他测试模型后的第一印象:

 

我发现它在编辑自己的图像方面做得很好,这很有趣。比如添加功能,编辑背景/前景等。而且当被要求时,它还能“回到原始图像”。这是我发现 ChatGPT 有时难以做到的地方。

 

该模型建立在 Gemini 2.0 Flash 的低延迟和高效的基础上,同时直接结合社区反馈,以获得更高质量的输出和更强的编辑控制。它现在可以通过Gemini API、谷歌AI StudioVertex AI预览,预计在未来几周内完全稳定。为了使实验更容易,谷歌用新的模板应用程序更新了谷歌 AI Studio 的构建模式。

 

定价已确认为每 100 万个输出 token 30 美元,每个图像的成本约为 0.039 美元。其他模态遵循 Gemini 2.5 Flash 的定价。

 

原文链接:

https://www.infoq.com/news/2025/09/gemini-flash-image/

2025-09-04 13:008255

评论

发布
暂无评论
发现更多内容

STM32入门开发-详解GPIO口的配置与控制方式(以LED灯为例)

DS小龙哥

7月月更

基于Joint BERT模型的意图识别技术实践

神州数码

焕新升级,Sermant 2.0.0 release版本重磅发布!

华为云开源

开源 云原生 微服务治理 华为云开源

BSC链近况及解读:BSC链代币DApp开发详解

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

小智报表实战系列-3 分栏报表

小智数据

华为云发起,openGemini正式成为CNCF官方项目!

华为云开发者联盟

数据库 开源 华为云 华为云开发者联盟 企业号2024年7月PK榜

管理者如何为团队赋能,提升测试效率

测吧(北京)科技有限公司

测试

LeetCode题解:2319. 判断矩阵是否是一个 X 矩阵,JavaScript,详细注释

Lee Chen

【YashanDB知识库】YAS-02024 lock wait timeout, wait time 0 milliseconds

YashanDB

yashandb 崖山数据库

数据集与数据库的差异

蛙人族

京东jd.item_search API返回值解读:商品排名与销量

技术冰糖葫芦

API 文档 API 开发 API 协议 pinduoduo API

“数字疗法"如何改变心理健康服务

心大陆多智能体

智能体 AI大模型 数字心理 心理咨询 数字疗法

小智报表实战系列-1 商品销售环比占比报表

小智数据

探索AI人才培养新范式,合合信息与同济大学软件学院签署产教融合人才培养协议

合合技术团队

合合信息 校企合作 #人工智能 同济大学

Socks5代理为什么比HTTP代理快?

IPIDEA全球HTTP

代理IP http代理 socks5代理

任务调度TASKCTL与ETL DataStage融合:打造高效企业数据处理

敏捷调度TASKCTL

ETL任务 TASKCTL ETL数据集成 任务调度平台

解读jd.item_search_img API返回值:京东按图搜索的智能匹配

技术冰糖葫芦

API 安全 API 文档 API 开发 API 协议

《第一章、HarmonyOS介绍》02-HarmonyOS赋能套件介绍

清风论

华为 鸿蒙 HarmonyOS 鸿蒙应用开发

探究kubernetes 探针参数periodSeconds和timeoutSeconds

不在线第一只蜗牛

Kubernetes 参数

亚马逊海外直播网络专线的重要性与优势

Ogcloud

直播带货 电商直播 亚马逊 亚马逊直播

小智报表实战系列-2 商品销售交叉表

小智数据

谷歌推出Gemini 2.5 Flash Image,具备高级编辑和一致性功能_Google_InfoQ精选文章