2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌推出 Gemini 2.5 Flash Image,具备高级编辑和一致性功能

作者:Robert Krzaczyński

  • 2025-09-04
    北京
  • 本文字数:863 字

    阅读完需:约 3 分钟

大小:422.87K时长:02:24
谷歌推出Gemini 2.5 Flash Image,具备高级编辑和一致性功能

谷歌发布了最新的图像生成和编辑模型 Gemini 2.5 Flash Image(昵称 nano-banana)。与早期的 Flash 模型相比,该系统引入了几项升级,包括跨提示的角色一致性、多图像融合、基于提示的精确编辑以及用于语义理解的世界知识集成。

 

该版本是谷歌 Gemini 2.5 系列的一部分,该系列将 Flash 模型从文本扩展到图像生成。Gemini 2.0 Flash 主要以其速度和效率得到认可,但其图像生成功能在质量和编辑精度方面受到限制。Gemini 2.5 Flash Image 在这些方面进行了改进,增加了一些工具,使其在快速实验和结构化创意工作流程中更加实用。

 

Gemini 2.5 Flash Image 的一个技术重点是角色一致性,这是生成模型中的一个常见困难。它的目的是在多个提示或编辑中保持相同主题的可识别性,例如,在场景之间移动角色时,从不同的角度显示产品时,或生成标准化的视觉资产时。

 

该模型还支持基于提示的图像编辑,用户可以用自然语言描述特定的变化。典型的操作包括背景调整,物体移除或替换,或修改细节,如主体的姿势。此外,多图像融合功能允许来自多个输入的特征组合成单个结果。

 

Gemini 2.5 Flash Image 还受益于世界知识整合,使其在需要语义推理的场景中具有优势。谷歌已经演示了一些示例,例如阅读和解释手绘图表,为房地产列表调整模板,以及协助结合视觉和文本理解的教育任务。

 

工业设计师 Thomas Broen分享了他测试模型后的第一印象:

 

我发现它在编辑自己的图像方面做得很好,这很有趣。比如添加功能,编辑背景/前景等。而且当被要求时,它还能“回到原始图像”。这是我发现 ChatGPT 有时难以做到的地方。

 

该模型建立在 Gemini 2.0 Flash 的低延迟和高效的基础上,同时直接结合社区反馈,以获得更高质量的输出和更强的编辑控制。它现在可以通过Gemini API、谷歌AI StudioVertex AI预览,预计在未来几周内完全稳定。为了使实验更容易,谷歌用新的模板应用程序更新了谷歌 AI Studio 的构建模式。

 

定价已确认为每 100 万个输出 token 30 美元,每个图像的成本约为 0.039 美元。其他模态遵循 Gemini 2.5 Flash 的定价。

 

原文链接:

https://www.infoq.com/news/2025/09/gemini-flash-image/

2025-09-04 13:007916

评论

发布
暂无评论
发现更多内容

一个工程师向电信公司的维权

D

MacOS配置网络命令

编程随想曲

macos network

在Kubernetes上运行SpringBoot应用

铁花盆

Docker Kubernetes Spring Boot

都在说实时数据架构,你了解多少?

Apache Flink

大数据 flink 流计算 实时计算

Python 有哪些黑魔法?

极客时间

Python 编程语言

记一次spring注解@Value不生效的深度排查

捉虫大师

spring Spring Boot dubbo

一次漫长的dubbo网关内存泄露排查经历

捉虫大师

dubbo 内存泄露

skywalking内存泄露排查

捉虫大师

dubbo 内存泄露

身为程序员,怎么接私活赚外快?

爱看书的小代码

XOR异或运算在计算机中的应用

wangkx

XOR 异或运算 对称加密

零基础应该如何学习爬虫技术?

极客时间

Python 编程 爬虫

读书·行路·问心·求道

黄崇远@数据虫巢

读书笔记 个人成长 读书

nacos的一致性协议distro介绍

捉虫大师

nacos

Docker运行常用软件:MySQL,Redis,Nginx,RabbitMQ,Neuxs,Gitlab

读钓

MySQL nginx Docker gitlab

用jdk8的stream实现斐波那契数列

编号94530

jdk stream 斐波那契 fibonacci

Sentinel在docker中获取CPU利用率的一个BUG

捉虫大师

Java sentinel cpu

以为是青铜,没想到是王者的dubbo标签路由

捉虫大师

dubbo

Apache Beam 大数据处理一站式分析

李孟聊AI

Java 大数据 数据中台 数据交换 Beam

如何在非 sudo 用户下运行 docker 命令?

愚一

Docker DevOps

思维导图学《Linux性能优化实战》

Yano

Linux 后端

Ledge:这可能是距今最好的『DevOps + 研发效能』知识平台

Phodal

DevOps 敏捷开发 软件开发 研发效能

什么是物联网中台

老任物联网杂谈

物联网中台 IOT Platform 物联网平台

centos7.6操作系统安装

桥哥技术之路

Linux

18个PPT,29个提问解答,都在这儿啦!

Apache Flink

大数据 flink 流计算 实时计算

项目实施要避免哪些坑?

顾强

项目管理

当dubbo多注册中心碰上标签路由

捉虫大师

dubbo

Linux系统优化

桥哥技术之路

Linux

LeetCode 前1000题二叉树题目系统总结

Yano

面试 算法 LeetCode 二叉树 刷题

IPFS 星际传输协议的入门(二)

AIbot

区块链 分布式数据库

一行代码实现网站可编辑,并解决网站禁止复制的限制

wangkx

复制 破解 DOM

SpringBoot中如何优雅的使用多线程

读钓

Java spring Spring Boot

谷歌推出Gemini 2.5 Flash Image,具备高级编辑和一致性功能_Google_InfoQ精选文章