2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌推出 Nano Banana Pro,实现有现实感的多模态图像合成

作者:Robert Krzaczyński

  • 2025-12-10
    北京
  • 本文字数:922 字

    阅读完需:约 3 分钟

大小:452.93K时长:02:34
谷歌推出Nano Banana Pro,实现有现实感的多模态图像合成

谷歌发布Nano Banana Pro。该系统突破了传统扩散工作流的局限,将图像生成与 Gemini 多模态推理架构深度融合。它所生成的视觉内容不仅非常美观,而且在结构、语境和信息层面都准确无误。

 

Nano Banana Pro 最大的转变是能够将图像与现实世界的知识联系起来。利用搜索定位和 Gemini 的扩展推理引擎,该模型可以将结构化内容(笔记、表格、指令和实时数据)转化为图表、信息图表和特定于领域的可视化内容,正确反映底层信息。这弥合了语言理解与图像合成之间长期存在的鸿沟。

 

早期用户已经开始注意到其所带来的影响。Barbaros Ozturk 在 LinkedIn 上写道

 

太神奇了!我用品牌资产试了一下。生成的大多数资产都符合品牌风格,文本生成确实有所提升。

 

另一个重大进步是强大的多语言文本渲染。Nano Banana Pro 并非将文本视为纹理,而是通过 Gemini 的多语言嵌入技术进行排版编码,从而生成文字清晰、一致且准确的图像——包括长段落和艺术化字体。终于,这种能力为包装设计稿、UI 预览、海报排版以及本地化营销素材等工作带来了实用价值。

 

在制作工作中,升级版一致性引擎表现尤为突出。该模型可在单个合成中合并多达 14 张参考图像,同时确保最多 5 个角色在不同角度、光照条件和比例下的身份一致性。这种可靠性对注重连续性的叙事创作和广告企划尤为重要。正如某商业制片人所言

 

Banana 对高端制作有着巨大的影响……对于需要在角色、产品、地点、照明、风格等方面保持连续性的广播节目,Banana 可谓是游戏规则的改变者。

 

在创意控制方面,用户有了一个更精确的工具:本地化编辑、相机角度操作、景深调整、照明转换(包括日夜转换)以及支持灵活宽高比的高分辨率输出(2K/4K)。这些特性使该模型更接近完整的预生产环境,而非传统的生成器。

 

透明度仍是首要任务。所有输出内容均嵌入了 SynthID 水印,用户现在可上传图片并查询该图像是否由谷歌 AI 生成。

 

Nano Banana Pro 已上线谷歌生态系统——包括 Gemini 应用、AI Mode in Search、广告、工作空间工具、Gemini API、Vertex AI 以及 Flow for Ultra 订阅者。对于开发人员和技术用户来说,这是一个明确的信号,即基于推理的、语义对齐的图像生成正在成为新的基准,而不再是一个实验。

 

原文链接:

https://www.infoq.com/news/2025/12/nano-banana-pro/

2025-12-10 11:254

评论

发布
暂无评论

3步带你搞定华为云编译构建CodeArts Build “新手村任务”

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

CRM系统化整合从N-1做减法实践 | 京东物流技术团队

京东科技开发者

CRM CRM系统 企业号 7 月 PK 榜 系统化整合

8月31日,上海!第十八届中国IDC产业(长三角)年度大典即将召开!

中国IDC圈

数据中心

户外LED显示屏怎样在5G时代下发展?

Dylan

5G 广告 数字化 城市 户外LED显示屏

【升职加薪秘籍】我在服务监控方面的实践(1)-监控蓝图

蓝胖子的编程梦

elasticsearch 性能优化 Grafana 服务监控 #Prometheus

服装行业MES系统解决方案|免费使用MES系统

万界星空科技

开源 MES系统 服装行业

一份数据满足所有数据场景?腾讯云数据湖解决方案及DLC内核技术介绍

腾讯云大数据

数据湖

加速 Selenium 测试执行最佳实践

FunTester

宁波企业等保测评找哪家?怎么做?

行云管家

等保 等级保护 等保测评 宁波

西安航天基地人才创新创业大赛正式启动

西安 大赛 比赛 西安航天 企业人才

Stepn跑鞋/Jogger慢跑者NFT系统开发案例

薇電13242772558

NFT

全网最强分布式事务详解

程序员小毕

Java 分布式 分布式事务 后端 架构师

三大升级!龙蜥正式推出首款全面拥抱智算的国产操作系统 Anolis OS 23

OpenAnolis小助手

开源 操作系统 龙蜥社区 版本发布 Anolis23

手把手带你初探Vue 3.0 | 京东物流技术团队

京东科技开发者

前端 Vue 3 VUE 3.0 源码 企业号 7 月 PK 榜

从iOS App启动速度看如何为基础性能保驾护航 | 京东物流技术团队

京东科技开发者

ios 开发 企业号 7 月 PK 榜 APP冷启动 启动速度

数智融合促进资产共享,实现企业资产效益最大化

用友BIP

资产云

数字孪生(Digital Twin)快速入门:简介以及应用示例

龙智—DevSecOps解决方案

数字孪生 digital twin

软件测试 | MyISAM是什么

测吧(北京)科技有限公司

测试

搜狗输入法双击输入框崩溃问题 | 京东云技术团队

京东科技开发者

搜索引擎 搜索 输入法 企业号 7 月 PK 榜

【云计算小知识】云环境是什么意思?有什么优点?

行云管家

云计算 云资源 云管 云环境

DevOps国际峰会 | 采访龙智总经理,分享DevOps见解与行业趋势

龙智—DevSecOps解决方案

DevOps 金融行业 devops国际峰会

比AD更好用的“PCB设计文件转生产文件”工具

华秋PCB

软件 工具 AD PCB PCB设计

软件测试 | MySQL存储引擎

测吧(北京)科技有限公司

测试

安全文件传输:如何降低数据丢失的风险

镭速

文件传输 安全文件传输

业财税档融合:大企业管理升级的必然选择

用友BIP

税务云 业财税档融合

详解TCP网络协议栈的工作原理

华为云开发者联盟

后端 开发 华为云 华为云开发者联盟 企业号 7 月 PK 榜

智能运维进入6.0时代,CloudwiseGPT运维大语言模型强势来袭!

云智慧AIOps社区

智能运维 大模型训练 大模型 大模型时代

出海是产业互联网发展的必然趋势之一

用友BIP

产业互联网 中企出海

谷歌推出Nano Banana Pro,实现有现实感的多模态图像合成_AI&大模型_InfoQ精选文章