谷歌推出Nano Banana Pro，实现有现实感的多模态图像合成

谷歌发布Nano Banana Pro。该系统突破了传统扩散工作流的局限，将图像生成与 Gemini 多模态推理架构深度融合。它所生成的视觉内容不仅非常美观，而且在结构、语境和信息层面都准确无误。

Nano Banana Pro 最大的转变是能够将图像与现实世界的知识联系起来。利用搜索定位和 Gemini 的扩展推理引擎，该模型可以将结构化内容（笔记、表格、指令和实时数据）转化为图表、信息图表和特定于领域的可视化内容，正确反映底层信息。这弥合了语言理解与图像合成之间长期存在的鸿沟。

早期用户已经开始注意到其所带来的影响。Barbaros Ozturk 在 LinkedIn 上写道：

太神奇了！我用品牌资产试了一下。生成的大多数资产都符合品牌风格，文本生成确实有所提升。

另一个重大进步是强大的多语言文本渲染。Nano Banana Pro 并非将文本视为纹理，而是通过 Gemini 的多语言嵌入技术进行排版编码，从而生成文字清晰、一致且准确的图像——包括长段落和艺术化字体。终于，这种能力为包装设计稿、UI 预览、海报排版以及本地化营销素材等工作带来了实用价值。

在制作工作中，升级版一致性引擎表现尤为突出。该模型可在单个合成中合并多达 14 张参考图像，同时确保最多 5 个角色在不同角度、光照条件和比例下的身份一致性。这种可靠性对注重连续性的叙事创作和广告企划尤为重要。正如某商业制片人所言：

Banana 对高端制作有着巨大的影响……对于需要在角色、产品、地点、照明、风格等方面保持连续性的广播节目，Banana 可谓是游戏规则的改变者。

在创意控制方面，用户有了一个更精确的工具：本地化编辑、相机角度操作、景深调整、照明转换（包括日夜转换）以及支持灵活宽高比的高分辨率输出（2K/4K）。这些特性使该模型更接近完整的预生产环境，而非传统的生成器。

透明度仍是首要任务。所有输出内容均嵌入了 SynthID 水印，用户现在可上传图片并查询该图像是否由谷歌 AI 生成。

Nano Banana Pro 已上线谷歌生态系统——包括 Gemini 应用、AI Mode in Search、广告、工作空间工具、Gemini API、Vertex AI 以及 Flow for Ultra 订阅者。对于开发人员和技术用户来说，这是一个明确的信号，即基于推理的、语义对齐的图像生成正在成为新的基准，而不再是一个实验。

原文链接：

https://www.infoq.com/news/2025/12/nano-banana-pro/

创作场景

谷歌推出 Nano Banana Pro，实现有现实感的多模态图像合成