谷歌已为 Gemini 3 Flash 添加智能体视觉(Agentic Vision)功能,将视觉推理与代码执行相结合,实现“基于视觉证据的精准回答”。据谷歌介绍,这不仅能提升准确性,更重要的是解锁了全新的 AI 驱动行为。
简单地说,Gemini 3 Flash 不再是一次性分析图像,而是以类似智能体的方式进行视觉调查:规划步骤、操作图像,并在回答问题之前通过代码验证细节。
这形成了一个“思考—>行动—>观察”的循环:模型首先分析提示词和图像,制定多步骤方案;然后生成并执行 Python 代码来操作图像并提取额外信息,如裁剪、缩放、标注或计算;最后将转换后的图像添加到上下文中,再生成新的回答。
谷歌表示,这种方法在大多数视觉基准测试中将准确率提升了 5% 至 10%,主要归功于两大因素。
首先,代码执行允许通过放大图像中的较小视觉元素(如微小文字)进行细粒度检查,而非依赖猜测。Gemini 还能通过绘制边界框和标签来标注图像,从而加强视觉推理能力,例如正确计数物体。谷歌表示,借助此类标注,他们已经解决了手部数字计数这一众所周知的“难题”。
其次,原本需要 AI 模型直接处理的视觉算术和数据可视化任务可以转移给 Python 和 Matplotlib 编写的代码来完成,从而减少基于图像的复杂数学运算可能产生的幻觉。
针对谷歌的这次发布,X 用户 Kanika 评论道:
读完这个,再回头看早期的视觉工具,感觉都不完整了。过去存在那么多边缘案例,仅仅是因为模型无法进行视觉干预或验证。智能体视觉感觉像是所有人最终都会采用的方向。
这带来的影响是巨大的。本质上,他们为 AI 在实际物理机器人中实现视觉推理带来了可能性。机器人将拥有更强的情境感知和智能体能力。
其他 Reddit 用户指出,ChatGPT 已经通过代码解释器(Code Interpreter)采用类似方法相当长一段时间了;尽管如此,它似乎仍然无法可靠地数清手指头数目。
谷歌的智能体视觉路线图涵盖更多隐式交互行为,如无需明确提示即可自动触发缩放、旋转等操作;新增网络搜索、反向图像搜索等工具,丰富模型可调用的参考依据;并将支持扩展到 Flash 之外的其他 Gemini 系列模型。
用户可通过 Google AI Studio 和 Vertex AI 中的 Gemini API 使用智能体视觉,并已开始以“思考模式(Thinking mode)”在 Gemini 应用中逐步推出。
原文链接:
https://www.infoq.com/news/2026/02/google-gemini-agentic-vision/





