谷歌推出Gemini 2.5 Flash Image，具备高级编辑和一致性功能

谷歌发布了最新的图像生成和编辑模型 Gemini 2.5 Flash Image（昵称 nano-banana）。与早期的 Flash 模型相比，该系统引入了几项升级，包括跨提示的角色一致性、多图像融合、基于提示的精确编辑以及用于语义理解的世界知识集成。

该版本是谷歌 Gemini 2.5 系列的一部分，该系列将 Flash 模型从文本扩展到图像生成。Gemini 2.0 Flash 主要以其速度和效率得到认可，但其图像生成功能在质量和编辑精度方面受到限制。Gemini 2.5 Flash Image 在这些方面进行了改进，增加了一些工具，使其在快速实验和结构化创意工作流程中更加实用。

Gemini 2.5 Flash Image 的一个技术重点是角色一致性，这是生成模型中的一个常见困难。它的目的是在多个提示或编辑中保持相同主题的可识别性，例如，在场景之间移动角色时，从不同的角度显示产品时，或生成标准化的视觉资产时。

该模型还支持基于提示的图像编辑，用户可以用自然语言描述特定的变化。典型的操作包括背景调整，物体移除或替换，或修改细节，如主体的姿势。此外，多图像融合功能允许来自多个输入的特征组合成单个结果。

Gemini 2.5 Flash Image 还受益于世界知识整合，使其在需要语义推理的场景中具有优势。谷歌已经演示了一些示例，例如阅读和解释手绘图表，为房地产列表调整模板，以及协助结合视觉和文本理解的教育任务。

工业设计师 Thomas Broen分享了他测试模型后的第一印象：

我发现它在编辑自己的图像方面做得很好，这很有趣。比如添加功能，编辑背景/前景等。而且当被要求时，它还能“回到原始图像”。这是我发现 ChatGPT 有时难以做到的地方。

该模型建立在 Gemini 2.0 Flash 的低延迟和高效的基础上，同时直接结合社区反馈，以获得更高质量的输出和更强的编辑控制。它现在可以通过Gemini API、谷歌AI Studio和Vertex AI预览，预计在未来几周内完全稳定。为了使实验更容易，谷歌用新的模板应用程序更新了谷歌 AI Studio 的构建模式。

定价已确认为每 100 万个输出 token 30 美元，每个图像的成本约为 0.039 美元。其他模态遵循 Gemini 2.5 Flash 的定价。

原文链接：

https://www.infoq.com/news/2025/09/gemini-flash-image/

创作场景

谷歌推出 Gemini 2.5 Flash Image，具备高级编辑和一致性功能