写点什么

谷歌推出 Gemini 2.5 Flash Image,具备高级编辑和一致性功能

作者:Robert Krzaczyński

  • 2025-09-04
    北京
  • 本文字数:863 字

    阅读完需:约 3 分钟

大小:422.87K时长:02:24
谷歌推出Gemini 2.5 Flash Image,具备高级编辑和一致性功能

谷歌发布了最新的图像生成和编辑模型 Gemini 2.5 Flash Image(昵称 nano-banana)。与早期的 Flash 模型相比,该系统引入了几项升级,包括跨提示的角色一致性、多图像融合、基于提示的精确编辑以及用于语义理解的世界知识集成。

 

该版本是谷歌 Gemini 2.5 系列的一部分,该系列将 Flash 模型从文本扩展到图像生成。Gemini 2.0 Flash 主要以其速度和效率得到认可,但其图像生成功能在质量和编辑精度方面受到限制。Gemini 2.5 Flash Image 在这些方面进行了改进,增加了一些工具,使其在快速实验和结构化创意工作流程中更加实用。

 

Gemini 2.5 Flash Image 的一个技术重点是角色一致性,这是生成模型中的一个常见困难。它的目的是在多个提示或编辑中保持相同主题的可识别性,例如,在场景之间移动角色时,从不同的角度显示产品时,或生成标准化的视觉资产时。

 

该模型还支持基于提示的图像编辑,用户可以用自然语言描述特定的变化。典型的操作包括背景调整,物体移除或替换,或修改细节,如主体的姿势。此外,多图像融合功能允许来自多个输入的特征组合成单个结果。

 

Gemini 2.5 Flash Image 还受益于世界知识整合,使其在需要语义推理的场景中具有优势。谷歌已经演示了一些示例,例如阅读和解释手绘图表,为房地产列表调整模板,以及协助结合视觉和文本理解的教育任务。

 

工业设计师 Thomas Broen分享了他测试模型后的第一印象:

 

我发现它在编辑自己的图像方面做得很好,这很有趣。比如添加功能,编辑背景/前景等。而且当被要求时,它还能“回到原始图像”。这是我发现 ChatGPT 有时难以做到的地方。

 

该模型建立在 Gemini 2.0 Flash 的低延迟和高效的基础上,同时直接结合社区反馈,以获得更高质量的输出和更强的编辑控制。它现在可以通过Gemini API、谷歌AI StudioVertex AI预览,预计在未来几周内完全稳定。为了使实验更容易,谷歌用新的模板应用程序更新了谷歌 AI Studio 的构建模式。

 

定价已确认为每 100 万个输出 token 30 美元,每个图像的成本约为 0.039 美元。其他模态遵循 Gemini 2.5 Flash 的定价。

 

原文链接:

https://www.infoq.com/news/2025/09/gemini-flash-image/

2025-09-04 13:001

评论

发布
暂无评论
发现更多内容

面试官:说说Event Loop事件循环、微任务、宏任务

loveX001

JavaScript 前端

NLP 双数组字典树(double array trie) 基于darts-java改进,增加词性存储。

alexgaoyh

elasticsearch nlp darts-java 词性 double array trie

浅析大促备战过程中出现的 fullGc,我们能做什么?

京东科技开发者

JVM 内存 GC java 企业号 3 月 PK 榜

研发效能度量标准与实践

思码逸研发效能

研发效能

问:React的setState为什么是异步的?

beifeng1996

前端 React

一文看懂:近期不断 “狂飙” 的 ChatGPT | 社区征文

架构精进之路

ChatGPT

美团前端二面面试题

loveX001

JavaScript 前端

号码隐私保护服务:保障亿万消费者的隐私安全

阿里云CloudImagine

云计算

一次线上OOM问题分析

艾小仙

Java OOM 问题排查 排查方法

ChatGPT看技术发展趋势| 社区征文

芯动大师

人工智能 openai ChatGPT

前端经典面试题(有答案)

loveX001

JavaScript 前端

N皇后问题的回溯法实现

老王同学

c++ 八皇后 回溯法

chianmaker交易初探

liwh1227

区块链 共识算法 联盟链架构

一文深度解读音视频行业技术发展历程

阿里云CloudImagine

云计算

22道js输出顺序问题,你能做出几道

loveX001

JavaScript 前端

YOLOv5全面解析教程⑤:计算mAP用到的Numpy函数详解

OneFlow

人工智能 深度学习

如何快速理解事务隔离

Dinfan

数据库 innodb 事务隔离

2023年最佳Aspera替代方案,选择适合的Aspera替代方案

镭速

见山,见路,见天地:OpenHarmony的开源共建攀登

脑极体

开源鸿蒙

ChatGPT 不仅是 AI 的成功,也是云计算的成功 | 社区征文

多颗糖

云计算 AI 云原生 ChatGPT

新一代通信协议—— RSocket

老周聊架构

响应式编程 2月月更 rsocket

Python:Excel自动化实践入门篇 乙【送图书活动继续】

eng八戒

Python Excel Python自动化办公

“堆内存持续占用高 且 ygc回收效果不佳” 排查处理实践

京东科技开发者

前端 堆内存 回收器 JavaScrip 企业号 3 月 PK 榜

美团前端常见react面试题(附答案)

beifeng1996

前端 React

Vue的computed和watch的区别是什么?

bb_xiaxia1998

Vue 前端

C++入门简单实例

老王同学

c++ 入门

前端必会react面试题

beifeng1996

前端 React

前端常见vue面试题(必备)

bb_xiaxia1998

Vue 前端

根据文本描述生成视频,Tune-A-Video 效果惊艳

Zilliz

计算机视觉

老生常谈React的diff算法原理-面试版

beifeng1996

前端 React

谷歌推出Gemini 2.5 Flash Image,具备高级编辑和一致性功能_Google_InfoQ精选文章