写点什么

谷歌推出 Gemini 2.5 Flash Image,具备高级编辑和一致性功能

作者:Robert Krzaczyński

  • 2025-09-04
    北京
  • 本文字数:863 字

    阅读完需:约 3 分钟

大小:422.87K时长:02:24
谷歌推出Gemini 2.5 Flash Image,具备高级编辑和一致性功能

谷歌发布了最新的图像生成和编辑模型 Gemini 2.5 Flash Image(昵称 nano-banana)。与早期的 Flash 模型相比,该系统引入了几项升级,包括跨提示的角色一致性、多图像融合、基于提示的精确编辑以及用于语义理解的世界知识集成。

 

该版本是谷歌 Gemini 2.5 系列的一部分,该系列将 Flash 模型从文本扩展到图像生成。Gemini 2.0 Flash 主要以其速度和效率得到认可,但其图像生成功能在质量和编辑精度方面受到限制。Gemini 2.5 Flash Image 在这些方面进行了改进,增加了一些工具,使其在快速实验和结构化创意工作流程中更加实用。

 

Gemini 2.5 Flash Image 的一个技术重点是角色一致性,这是生成模型中的一个常见困难。它的目的是在多个提示或编辑中保持相同主题的可识别性,例如,在场景之间移动角色时,从不同的角度显示产品时,或生成标准化的视觉资产时。

 

该模型还支持基于提示的图像编辑,用户可以用自然语言描述特定的变化。典型的操作包括背景调整,物体移除或替换,或修改细节,如主体的姿势。此外,多图像融合功能允许来自多个输入的特征组合成单个结果。

 

Gemini 2.5 Flash Image 还受益于世界知识整合,使其在需要语义推理的场景中具有优势。谷歌已经演示了一些示例,例如阅读和解释手绘图表,为房地产列表调整模板,以及协助结合视觉和文本理解的教育任务。

 

工业设计师 Thomas Broen分享了他测试模型后的第一印象:

 

我发现它在编辑自己的图像方面做得很好,这很有趣。比如添加功能,编辑背景/前景等。而且当被要求时,它还能“回到原始图像”。这是我发现 ChatGPT 有时难以做到的地方。

 

该模型建立在 Gemini 2.0 Flash 的低延迟和高效的基础上,同时直接结合社区反馈,以获得更高质量的输出和更强的编辑控制。它现在可以通过Gemini API、谷歌AI StudioVertex AI预览,预计在未来几周内完全稳定。为了使实验更容易,谷歌用新的模板应用程序更新了谷歌 AI Studio 的构建模式。

 

定价已确认为每 100 万个输出 token 30 美元,每个图像的成本约为 0.039 美元。其他模态遵循 Gemini 2.5 Flash 的定价。

 

原文链接:

https://www.infoq.com/news/2025/09/gemini-flash-image/

2025-09-04 13:007832

评论

发布
暂无评论
发现更多内容

Modbus协议通信异常

神农写代码

王者荣耀商城异地多活架构设计

Fan

架构实战营

性能测试如何创造业务价值

老张

性能测试 技术与业务

微信小程序利用百度api达成植物识别

是乃德也是Ned

小程序开发 7月月更

记一次面试

SkyFire

面试 操作系统 底层 基础知识

使用BLoC 构建 Flutter的页面实例

岛上码农

flutter ios 安卓 移动端开发 7月月更

关于Flink框架窗口(window)函数最全解析

百思不得小赵

大数据 flink window 7月月更

OpenHarmony如何启动远程设备的FA

坚果

HarmonyOS OpenHarmony 7月月更 harmony

RPA进阶(二)Uipath应用实践

No Silver Bullet

RPA 7月月更 Uipath

Security RememberMe原理分析

急需上岸的小谢

7月月更

瞧瞧人家用SpringBoot写的后端API接口,那叫一个优雅

程序知音

Java spring 编程 程序员 后端

旧的Spring Security OAuth已停止维护,全面拥抱最新解决方案

程序知音

Java spring 程序员 微服务 后端

JavaScript 设计模式之策略模式

devpoint

JavaScript 设计模式 策略模式 7月月更

毕业总结

Dean.Zhang

相信自己,这次一把搞定JVM面试

慕枫技术笔记

JVM 7月月更

深刻理解 Linux 进程间七大通信(IPC)

C++后台开发

网络编程 linux开发 Linux服务器开发 C++开发 进程通信

好玩的免费GM游戏整理汇总

echeverra

游戏

【愚公系列】2022年07月 Go教学课程 001-Go语言前提简介

愚公搬代码

7月月更

hive数据导入:从查询数据导入

怀瑾握瑜的嘉与嘉

大数据 hive 7月月更

亚马逊云科技 Community Builder 申请窗口开启

亚马逊云科技 (Amazon Web Services)

build 亚马逊云

体验居家办公完成项目有感 | 社区征文

恒山其若陋兮

居家办公 初夏征文

JDBC

武师叔

7月月更

TCP拥塞控制详解 | 2. 背景

俞凡

算法 网络 TCP拥塞控制

Django 表单

海拥(haiyong.site)

django 7月月更

远程办公对我们的各方面影响心得 | 社区征文

恒山其若陋兮

远程办公 初夏征文

关于我

程序员半支烟

Python|语言元素、分支结构和循环结构

AXYZdong

7月月更

Mall电商实战项目全面升级!支持最新版SpringBoot,干掉循环依赖

程序知音

Java spring 编程 程序员 后端

如何优雅的写 Controller 层代码?

程序知音

Java 编程 程序员 后端

【LeetCode】统计值等于子树平均值的节点数Java题解

Albert

LeetCode 7月月更

rxjs Observable 自定义 Operator 的开发技巧

汪子熙

typescript 响应式编程 angular RXJS 7月月更

谷歌推出Gemini 2.5 Flash Image,具备高级编辑和一致性功能_Google_InfoQ精选文章