
谷歌发布Nano Banana Pro。该系统突破了传统扩散工作流的局限,将图像生成与 Gemini 多模态推理架构深度融合。它所生成的视觉内容不仅非常美观,而且在结构、语境和信息层面都准确无误。
Nano Banana Pro 最大的转变是能够将图像与现实世界的知识联系起来。利用搜索定位和 Gemini 的扩展推理引擎,该模型可以将结构化内容(笔记、表格、指令和实时数据)转化为图表、信息图表和特定于领域的可视化内容,正确反映底层信息。这弥合了语言理解与图像合成之间长期存在的鸿沟。
早期用户已经开始注意到其所带来的影响。Barbaros Ozturk 在 LinkedIn 上写道:
太神奇了!我用品牌资产试了一下。生成的大多数资产都符合品牌风格,文本生成确实有所提升。
另一个重大进步是强大的多语言文本渲染。Nano Banana Pro 并非将文本视为纹理,而是通过 Gemini 的多语言嵌入技术进行排版编码,从而生成文字清晰、一致且准确的图像——包括长段落和艺术化字体。终于,这种能力为包装设计稿、UI 预览、海报排版以及本地化营销素材等工作带来了实用价值。
在制作工作中,升级版一致性引擎表现尤为突出。该模型可在单个合成中合并多达 14 张参考图像,同时确保最多 5 个角色在不同角度、光照条件和比例下的身份一致性。这种可靠性对注重连续性的叙事创作和广告企划尤为重要。正如某商业制片人所言:
Banana 对高端制作有着巨大的影响……对于需要在角色、产品、地点、照明、风格等方面保持连续性的广播节目,Banana 可谓是游戏规则的改变者。
在创意控制方面,用户有了一个更精确的工具:本地化编辑、相机角度操作、景深调整、照明转换(包括日夜转换)以及支持灵活宽高比的高分辨率输出(2K/4K)。这些特性使该模型更接近完整的预生产环境,而非传统的生成器。
透明度仍是首要任务。所有输出内容均嵌入了 SynthID 水印,用户现在可上传图片并查询该图像是否由谷歌 AI 生成。
Nano Banana Pro 已上线谷歌生态系统——包括 Gemini 应用、AI Mode in Search、广告、工作空间工具、Gemini API、Vertex AI 以及 Flow for Ultra 订阅者。对于开发人员和技术用户来说,这是一个明确的信号,即基于推理的、语义对齐的图像生成正在成为新的基准,而不再是一个实验。
原文链接:







评论