
谷歌发布了最新的图像生成和编辑模型 Gemini 2.5 Flash Image(昵称 nano-banana)。与早期的 Flash 模型相比,该系统引入了几项升级,包括跨提示的角色一致性、多图像融合、基于提示的精确编辑以及用于语义理解的世界知识集成。
该版本是谷歌 Gemini 2.5 系列的一部分,该系列将 Flash 模型从文本扩展到图像生成。Gemini 2.0 Flash 主要以其速度和效率得到认可,但其图像生成功能在质量和编辑精度方面受到限制。Gemini 2.5 Flash Image 在这些方面进行了改进,增加了一些工具,使其在快速实验和结构化创意工作流程中更加实用。
Gemini 2.5 Flash Image 的一个技术重点是角色一致性,这是生成模型中的一个常见困难。它的目的是在多个提示或编辑中保持相同主题的可识别性,例如,在场景之间移动角色时,从不同的角度显示产品时,或生成标准化的视觉资产时。
该模型还支持基于提示的图像编辑,用户可以用自然语言描述特定的变化。典型的操作包括背景调整,物体移除或替换,或修改细节,如主体的姿势。此外,多图像融合功能允许来自多个输入的特征组合成单个结果。
Gemini 2.5 Flash Image 还受益于世界知识整合,使其在需要语义推理的场景中具有优势。谷歌已经演示了一些示例,例如阅读和解释手绘图表,为房地产列表调整模板,以及协助结合视觉和文本理解的教育任务。
工业设计师 Thomas Broen分享了他测试模型后的第一印象:
我发现它在编辑自己的图像方面做得很好,这很有趣。比如添加功能,编辑背景/前景等。而且当被要求时,它还能“回到原始图像”。这是我发现 ChatGPT 有时难以做到的地方。
该模型建立在 Gemini 2.0 Flash 的低延迟和高效的基础上,同时直接结合社区反馈,以获得更高质量的输出和更强的编辑控制。它现在可以通过Gemini API、谷歌AI Studio和Vertex AI预览,预计在未来几周内完全稳定。为了使实验更容易,谷歌用新的模板应用程序更新了谷歌 AI Studio 的构建模式。
定价已确认为每 100 万个输出 token 30 美元,每个图像的成本约为 0.039 美元。其他模态遵循 Gemini 2.5 Flash 的定价。
原文链接:
评论