
Gemini 3 的热度还未散去,谷歌就迫不及待地将 Nano Banana Pro 搬上了桌。
几个月前,谷歌发布了爆火的 Nano Banana( 即 Gemini 2.5 Flash Image)。从修复老照片,到生成迷你手办,大家玩得不亦乐乎。今天,谷歌正式推出了 Nano Banana Pro(即 Gemini 3 Pro Image),一个“全新的、最先进”的图像生成与编辑模型。
它基于 Gemini 3 Pro 打造,利用 Gemini 的顶级推理能力与真实世界知识,将信息可视化的能力提升到了一个前所未有的高度,发布后又迅速获得大量好评。
根据谷歌的说法,Nano Banana(原版)倾向快速、轻量、好玩的场景, Nano Banana Pro 适合需要高质量、复杂构图的专业级创作。普通消费者可以在 Gemini App 中体验,选择 “Create images / 创建图像” 并切换到 “Thinking” 模型即可。免费用户有一定免费额度,之后回落到原版 Nano Banana,AI Plus、Pro 与 Ultra 用户拥有更高额度。此外,谷歌 AI Studio 也已上线。
谷歌的所有 AI 生成内容都默认嵌入不可见的 SynthID 数字水印。现在普通用户可以在 Gemini App 中上传任意一张图片,然后直接询问它是否由 Google AI 生成。目前支持图像,后续将扩展到音频和视频。
Nano Banana Pro 更强了
首先,有了 Gemini 3 先进的推理能力,Nano Banana Pro 不仅能生成好看的图片,还能帮产出更有用的内容。比如根据用户提供的内容或真实世界的事实,自动生成具有丰富上下文的信息图和示意图。Nano Banana Pro 还可以连接 Google Search 的庞大知识库,生成菜谱步骤、可视化天气情况等实时信息。
谷歌 CEO Sundar Pichai(劈柴哥)在推特上展示自己的作品,他还表示,Nano Banana Pro“拥有最先进的图像生成和编辑功能,具备更高级的世界知识、文本渲染、精度和控制能力。基于 Gemini 3 构建,它非常擅长制作复杂的图表,就像工程师看待世界的方式一样: )”
帖子下,有用户展示了自己用 Nano Banana Pro 给孩子们建立树屋的平面图。
其次,谷歌表示,Nano Banana Pro 在生成带有文本的图片方面是目前最好的模型之一,文本不仅能精准呈现,而且可读性极高。这得益于 Gemini 3 对语义、结构的理解更深刻。
网友 Shubham Bagade 评价道,一般来说,图像生成模型会优先优化局部纹理一致性,也就是让像素看起来像一座桥,但会以牺牲全局语义一致性为代价,也就是理解“桥”到底是什么。这就是为什么 AI 生成的文本常常看起来像外星人的象形文,它在模仿字母的形状,但并不理解这些符号的含义。
“AI 图像最难的问题不是逼真度,而是空间逻辑。这意味着 Gemini 3 拥有一个能理解三维几何和功能关系的世界模型,而不仅仅是二维像素的相关性。它呈现的是物理结构,而不仅仅是照片本身。如果这是真的,那么技术插画的边际成本刚刚掉到零。我们正在从‘AI 是创意总监’迈向‘AI 是制图匠’的时代。这将 AI 从艺术家的玩具,转变成教师和工程师的实用工具。”
Alex Volkov 自己尝试用 Pro 制作了下面的信息图,花了 80 秒,包括研究和寻找 logo,而且涵盖了本周所有的 AI 新闻。
帖子下一片惊叹。Alex 分享了他的提示词,比较长,有兴趣的读者可以自己尝试下:
https://x.com/altryne/status/1991531734807032209
再者,Nano Banana Pro 现在能同时融合多达 14 张图像,并保持最多 5 个人的外观一致。无论把草图变成产品图,还是把原图转成写实的 3D 结构,现在能轻松跨越“概念 → 成品”的鸿沟。
有用户尝试将 8 张好莱坞海报合成了一张,效果如下:
此外,借助 Nano Banana Pro 的新功能,用户可以更精细地操控画面内容:选择、微调和变换局部区域,改变拍摄角度、调整焦点、景深,应用专业级调色,改变场景光线等,可以为不同平台选择不同的画幅比例,还可输出 2K 或 4K 高分辨率图片。
谷歌还给出了一些提示词使用技巧:
https://blog.google/products/gemini/prompting-tips-nano-banana-pro/
值得注意的是,劈柴哥今天在推特上还发了下图,并写道“懂得都懂”。
看来,他仍对于 2017 年关于汉堡表情符号的争论“奶酪应该放在肉饼上面还是下面”这事儿耿耿于怀。当年,他一度表示要“放下手头的一切工作”来处理此事。
当时,谷歌版汉堡 Emoji 显示奶酪在汉堡底部,这在社交媒体上引发了关于人们组装汉堡方式的争论。作者兼媒体分析师 Thomas Baekdal 指出了这个设计问题,“为什么谷歌的汉堡 Emoji 把奶酪放在肉饼下面,而苹果的却放在上面。”据 Emojipedia 报道,Facebook、WhatsApp 和 Twitter 等公司的 Emoji 设计是将奶酪放在肉饼上方。
2018 年 5 月的 Google I/O 大会上,劈柴哥在演讲中调侃道,“我们的汉堡 Emoji 奶酪放错了位置”,并展示了“Before/After”两幅汉堡图对比,来说明 Android 修正其“奶酪在肉饼下面”这一设计。
用户给谷歌花钱都花不出去?
但是,当更多人转为付费用户涌入后,谷歌似乎没接住,有网友表示自己这钱很难花出去。
谷歌这周的表现简直像哥斯拉一样强势,这是我第一次决定把自己的银行卡绑定到他们的 AI Studio 上。之前看到有人说他们放弃了,跑去别的平台,因为‘根本没办法付费’。我当时觉得很奇怪,但现在花了半小时尝试获取一个能用的 API Key 之后,我明白他们的意思了。
所有设置都已经完成,我也看到了提示:“你正在使用付费 API Key [NanoBanano](属于 [NanoBanano])。本次会话发送的所有请求都会收费。”但我去输入提示词时,却收到一个“权限被拒绝”的错误。
如果你让我花钱都变得这么麻烦,那再厉害的模型也毫无意义。
这个问题冲上了 Hacker News 评论第一。随后,疑似谷歌团队的人“logankilpatrick”回复该网友称,
首先,为这个糟糕的初次体验向你道歉。团队正在拼命改进,让大家更容易访问模型。
· 关于权限问题,我不太确定你是通过什么流程遇到这个情况的。如果可以的话,请发邮件告诉我更多细节,我会帮你查:Lkilpatrick@google.com
· 关于整体付费流程的繁琐:我们正在开发一个全新的付费体验,直接内置在 AI Studio 里,让你可以非常方便地添加信用卡然后开始使用。我们也会加入诸如硬性计费上限等功能,预计全球上线时间是明年一月份。
他的个人博客上写着他曾在谷歌和 OpenAI 工作过。接着,有网友开始向其抱怨自己糟心的付费经历:“在 Vertex AI 上,仅仅是注册、绑定信用卡、然后开始用 Claude Sonnet(现在可以在 Vertex AI 上使用),这个过程简直就是一场噩梦。”
为了完成这个(最终失败的)用户路径,需要经历的步骤数量多到让人头晕:
· 在 AI Studio 里获取 API Key,
· 在 AI Studio 里绑定支付方式:会自动创建一个 GCP 项目,这倒不错
· 但接着会把你踢到 GCP 去真正创建支付方式并与项目绑定
· 想在 Claude Code 里使用 API Key,需要先找到模型名称
· 到处查模型名称,结果发现模型只部署在部分区域;好在项目开在了正确的区域
· 配置新 endpoint 和 API Key,Claude Code 抛出 API 权限错误
· 到 Vertex 里查来查去,发现有两个不同地方需要为账号启用该模型
· 还需要填写一个表格申请使用 GCP 上的 Claude 模型
· 再试 Claude Code,失败,提示 API 配额不足
· 回到 Vertex 查看,发现 Sonnet 4.5 的默认配额是 0 TPM(为什么这是一个合理的默认值??)
· 申请把配额提高到 10k tokens/minute(似乎需要人工审核)
· 收到拒绝邮件,没有任何理由
· 再申请把配额提高到 1 token/minute
· 又收到拒绝邮件,依然没有任何理由
· 彻底放弃
然后我去了 Anthropic 自己的网站,对比一下那边的用户路径:
· 在 console.anthropic.com 获取 API Key
· 绑定信用卡
· 打开 Claude Code,填入 API Key
· 成功
我甚至不觉得这是 Claude Code 偏向自家 API 的问题,因为这个 API Key 在 OpenCode 上也工作得很好。
网友 herval 表示,“Google 的 API 整体上难用得可笑。世界上其他任何服务,你去平台上拿一个 API key 就能开始用了。想用 Google 的 Gmail、Maps、Calendar 或 Gemini API?那你得先创建一个 Cloud 账号、创建一个应用、启用 Gmail 服务、创建一个 OAuth 应用、下载一个 JSON 文件。拜托……这太夸张了。”
但是,不得不说,最近的谷歌彻底打了一次翻身仗。在谷歌 Gemini 3 推出后,OpenAI 迅速推出了 GPT - 5.1 Pro 版本,Nano Banana Pro 发布后,有网友翻到 Altman 4 月份的推特,催发新模型。
近日,劈柴哥接受 BBC 采访,探讨了 AI 泡沫、智能体对岗位影响、技术独裁等问题的看法。他认为,当前存在行业投资过热的非理性成分,但 AI 需求是真实的(消费者、企业端应用普及),技术潜力深远,类比互联网的颠覆性影响,整体趋势理性。我们翻译了这次采访,并在不改变原意基础上进行了整理,以飨读者。
谷歌 CEO 回应一些
AI 泡沫存在吗?
主持人:当前全球股市和投资市场正处于关键阶段,您身处科技核心区域,显然有许多全球关注的重要动态值得分享。能否先为我们描述一下硅谷当下的整体态势?
Pichai:即便以硅谷的标准来看,现在也是一个非凡的时刻。每 10 年左右,科技行业总会出现一些关键转折点:个人电脑的诞生、90 年代末互联网的兴起、随后的移动互联网浪潮,再到云计算时代……而现在,显然已经进入了人工智能(AI)的黄金时代。这种兴奋感,无论是在谷歌园区还是整个湾区,都能真切感受到。
主持人:能否具体说说这场变革的规模?市场通常会关注市值数据,谷歌 3.5 万亿美元、英伟达 5 万亿美元的估值都令人瞩目,背后是巨额的投资涌入。
Pichai:理解规模的一个重要维度是 AI 基础设施的资本投入。大约四年前,谷歌的年度资本支出还不到 300 亿美元,而今年这一数字将超过 900 亿美元。如果汇总整个行业的投资,目前投入 AI 基础设施建设的资金已远超 1 万亿美元。更直观的对比是:未来两、三年内,我们建成的 AI 基础设施规模,可能相当于过去 10 到 20 年的总和。这就是当前行业扩张的速度。
主持人:现在全球都在讨论一个问题:这是否是一场泡沫?
Pichai:这个问题可以从两个角度看。首先,AI 模型的能力提升是实实在在的:消费者在产品中积极使用,企业借助 AI 优化运营,真实需求持续存在,甚至我们的技术供给还难以跟上需求增长。从技术潜力来看,市场的热情是理性的。但同时,科技行业的投资周期中难免出现集体过热的情况,就像 90 年代互联网泡沫时期,确实存在过度投资的现象。但没人会质疑互联网对社会的深远影响,它从根本上改变了数字时代的工作方式,我认为 AI 也将产生同等量级的变革。因此,当前的态势既是理性的技术驱动,也夹杂着行业周期中的非理性成分。
主持人:有人认为,无论竞争对手的交易多么激进,谷歌凭借全领域的技术布局,能够免疫泡沫破裂的影响,您认同这种观点吗?
Pichai:没有任何公司能完全免疫,谷歌也不例外。如果投资过度,行业终将经历调整期,但谷歌的优势在于长期坚持的差异化策略。
我担任 CEO 后,首先推动公司转向“AI 优先”战略,采取“全栈式方案”:从底层物理基础设施、前沿技术研发,到在搜索、YouTube、安卓等产品中的落地应用,实现了端到端的技术掌控。这种深度布局让我们能够规模化投资,并以长期视角应对行业波动。
智能体是否可能取代 CEO?
主持人:AI 工具最终能发挥多大作用?未来 AI 智能体是否可能取代 CEO 这类岗位?
Pichai:目前 AI 已能实现多主题的智能交互,而未来 12 个月将迎来关键进化:AI 将能完成更复杂的任务。比如帮用户选购配偶的生日礼物,这种“智能代理体验”正是行业的兴奋点所在。长远来看,AI 还能辅助重大决策,比如是否投资某只股票、如何权衡医疗方案的利弊,这些都是切实的应用场景。当然,解锁这些能力还需要持续投入,但这个过程已经非常令人期待。
至于 CEO 岗位,或许未来 AI 某天能胜任部分工作,但技术的核心价值是提升生产力。就像洗碗机、冰箱的发明解放了家务劳动,AI 是为了减轻人类负担。以放射科医生为例,每年的扫描量和影像数据持续增长,AI 工具能帮助他们应对工作压力,而不是取代他们。
编者注:这与 Altman 看法不同,Altman 认为一个由 AI 模型全面运营公司的时代几乎已经到来。即便这意味着他可能失去自己的职位,OpenAI 也将引领这一潮流。“如果 OpenAI 不是第一家由 AI CEO 运营的大公司,那我就该惭愧。”他认为,未来几年时间,公司旗下某个大型部门就能实现 85% 或更多的运营由 AI 主导。
主持人:但很多西方中产担心 AI 会冲击律师、创意行业、会计、新闻等职业。您认为哪些岗位相对安全?有什么建议给迷茫的家长和年轻人?
Pichai:首先必须承认,AI 作为人类史上最具变革性的技术,既会带来巨大益处,也必然引发社会结构调整。但历史证明,技术会创造新的机会——就像 YouTube 让任何人都能成为内容创作者,未来高中生或许能构思并制作长篇电影。部分岗位会转型,有些会被替代,但新的职业会不断涌现。
对年轻人的建议是:不必改变核心成长逻辑,各类学科仍将发挥价值,但要学会与 AI 共生。无论是教师、医生还是其他职业,未来的成功者都将是那些善于运用 AI 工具的人。拥抱技术、学会适配,才是关键。
AI 安全
主持人:当前所有的估值、期待和社会价值,都建立在技术可靠的基础上。作为 ChatGPT 的竞争对手,谷歌 Gemini 是否能始终保证信息准确?比如曾出现过“胶水是披萨配料”“参议员被误控袭击”等错误案例,这是否意味着 AI 会降低信息可信度?
Pichai:我们正从科学层面努力让模型基于真实世界信息运作,比如 Gemini 已整合谷歌搜索功能,以提升答案准确性。但 AI 的核心原理是预测下一个词,难免存在误差,这是当前技术的局限性。因此,谷歌搜索等产品仍将作为“事实核查工具”存在,而 AI 则更擅长创意写作等场景。用户需要学会根据用途选择工具,而非盲目信任 AI 的所有输出。
更重要的是,信息生态不应仅依赖 AI。真相、新闻业以及现有信任体系都至关重要。我们需要构建更丰富的信息生态,而不是让 AI 成为唯一信息来源。
主持人:AI 基础设施的大规模建设引发了另一个争议:能源消耗。您认为 AI 发展与气候目标之间是否存在权衡?谷歌是否放弃了 2030 年净零排放目标?
Pichai:这并非零和博弈。AI 带来的巨大能源需求,反而推动了新能源技术的创新。谷歌刚刚与 Commonwealth Fusion Systems 签署了全球最大的核聚变能源采购协议,还布局了小型模块化核反应堆、地热能源等项目。AI 对能源的需求确实超出了现有系统的承载能力,但这正加速太阳能、电池技术、核能等领域的投资。作为技术从业者,我乐观地认为,未来我们将拥有充足的可再生能源。
谷歌并未放弃 2030 年净零目标,我们仍会发布进度报告。但 AI 基础设施的超预期增长确实影响了部分减排进度,因此我们通过投资新能源技术来应对这一挑战。
主持人:英国政府既追求净零排放,又立志成为 AI 超级大国,这两个目标是否兼容?谷歌是否会考虑在英国加大投资,比如在当地训练尖端 AI 模型?
Pichai:完全可以兼容,技术是关键赋能者。谷歌近期已宣布向英国投资 50 亿美元,涵盖资本支出、研发和工程领域。谷歌深度思维在英国拥有大量员工,正在开展尖端研究,未来我们计划在英国实现模型训练和服务部署的全面落地。
以我们在沃尔顿克罗斯的最先进数据中心为例,通过与壳牌的独家合作,到 2026 年谷歌在英业务的碳排放量将减少 95%。这证明在加大投资的同时,仍能推进可持续发展。对英国政府而言,关键是扩大包括能源在内的基础设施建设,避免能源限制阻碍经济发展。
主持人:AI 繁荣的另一个核心是训练数据。科技公司依赖“合理使用”原则,抓取书籍、音乐、新闻等内容,再将其转化为商业服务。谷歌是否认为未来需要为这些数据付费?
Pichai:在推动创新的同时,必须尊重创作者权利,这是核心原则。谷歌严格遵守各国版权法规,在模型训练阶段允许创作者选择退出,同时确保输出内容不侵犯版权。我们正与行业合作制定新的框架,就像 YouTube 长期以来为内容权利人创造价值一样,这些原则也将应用于 AI 领域。我们致力于在创新与权益保护之间找到平衡。
主持人:今年年初,您与扎克伯格、贝索斯、马斯克等科技巨头出席总统就职典礼的照片引发热议。科技公司本就拥有巨大影响力,如今又掌控着最强大的 AI 工具,且与政治力量联系紧密。您理解为何这会让公众感到不安吗?
Pichai:AI 技术对经济发展和国家安全都具有重大意义,作为行业领先企业,谷歌有责任与政府建设性合作。特朗普总统已明确 AI 的重要性,并推出了全面的 AI 行动计划,我们正积极响应。在英国,我上次访问时也与首相进行了会面。
关键在于构建全行业的框架,让政府、企业、非营利组织等所有利益相关方参与进来。我们不仅要推动技术带来的益处,还要共同应对潜在滥用风险。这种多方协作才能确保技术发展符合社会利益。
签证政策与人才
主持人:白宫加强对外国劳工签证的限制,对谷歌和整个科技行业会有何影响?作为通过 H-1B 签证来到美国的移民,您个人怎么看?
Pichai:移民对科技行业的贡献是不可估量的,谷歌近期获得了几项诺贝尔奖,获奖者中有不少是移民。美国政府理解这一点,当前的政策调整是为了完善现有签证体系的不足,而非关闭人才通道。我们仍将能够吸引全球顶尖人才,继续推进技术创新。
如何看待马斯克谷歌技术独裁担忧?
主持人:谷歌曾以重视 AI 安全、警惕人类生存风险而闻名。现在这种谨慎态度是否有所淡化?是否已全面转向 AGI(通用人工智能)和超级智能的研发?
Pichai:技术快速发展与风险防控之间确实存在张力,谷歌的原则是“大胆创新,负责任地前行”。消费者对 AI 的需求日益迫切,他们期待更智能的回答和服务,我们必须回应这种需求。但同时,我们也在加大 AI 安全投入——比如开源 AI 生成图像检测技术,过去几年 AI 安全领域的投资增速,与 AI 研发投资保持同步。我们正努力在创新速度与风险管控之间找到平衡。
主持人:埃隆·马斯克曾表示,他创立 OpenAI 的初衷就是担心谷歌收购 DeepMind 后,形成“AGI 独裁”。您如何看待这种担忧?
Pichai:马斯克的担忧有其合理性,没有任何一家公司应该独占如此强大的技术。但当前 AI 生态非常多元:不仅有多家科技巨头在研发前沿模型,还有开源模型兴起,中国也在这一领域积极布局。目前完全不存在“一家独大”的情况,这种竞争和多元性正是行业健康发展的保障。
量子技术与未来
主持人:谷歌的量子计算技术进展如何?这项复杂的技术未来将带来哪些突破?
Pichai:谷歌的量子计算处于全球领先水平,目前的发展阶段类似 5 年前的 AI。预计未来 5 年,量子计算将进入爆发期。宇宙的本质是量子力学,量子系统能帮助我们更好地模拟自然、解锁新的科学发现——比如药物研发、材料创新等领域,都将从中受益。我们正以长远视角持续投入这一领域。
主持人:几年前访问谷歌时,你们已经研发出了 ChatGPT 和 Gemini 的核心技术,但当时外界几乎一无所知。现在是否有类似的“秘密实验室项目”,未来可能改变世界?
Pichai:谷歌的研发管线非常丰富。比如自动驾驶技术已取得显著进展,不仅展现出安全优势,未来规模化应用后还能大幅减少交通事故伤亡。还有 AlphaFold,这项由伦敦谷歌 DeepMind 团队研发的技术,曾获诺贝尔化学奖。过去一名博士生可能毕生只能解析一种蛋白质,而 AlphaFold 在几个月内就完成了 3 亿种蛋白质的解析,并向全球免费开放。现在我们可能对这些进步习以为常:图灵测试早已被超越,旧金山街头的无人驾驶汽车也从科幻变成现实。
未来还会有更多惊喜,比如用 AI 研究海豚的交流方式等。技术的魅力在于不断突破想象,而人类的适应能力同样强大。我 80 多岁的父亲最近体验了 Waymo 自动驾驶汽车,那种惊叹让我意识到,我们常常低估了技术带来的改变。
参考链接:
https://blog.google/technology/ai/nano-banana-pro/








评论