从「看一眼」到「反复查」:Google Agentic Vision 如何让 AI 学会像侦探一样看图

📌 一句话总结:Google 在 Gemini 3 Flash 中推出 Agentic Vision,让 AI 从「看一眼就猜」进化为「看不清就放大、标注、计算再回答」,视觉基准测试提升 5-10%,标志着 AI 视觉从被动感知迈向主动认知。

2026年2月8日 · 深度解读 · 阅读时间约 8 分钟

你有没有过这样的经历:拍了一张建筑图纸的照片发给 AI,让它帮你读上面的尺寸标注,结果它信誓旦旦地给你一个错误数字?或者让 AI 数一数照片里有几根手指,它居然数出了六根?

这不是 AI「笨」,而是它的视觉系统有一个根本性的设计缺陷——只看一眼

传统的多模态 AI 模型处理图像的方式,本质上就是「一次性快照」:把整张图压缩成一组向量,然后基于这组向量生成回答。如果图片中有一个细小的序列号、一行模糊的文字、或者密密麻麻的表格数据,模型看不清怎么办?它不会说「等等,让我放大看看」——它会直接猜。

这就是「幻觉」的重要来源之一。

Google DeepMind 团队在 1 月 27 日发布的 Agentic Vision,正是要解决这个问题。它让 Gemini 3 Flash 从一个「扫一眼就回答」的被动观察者,变成了一个「反复查看、主动调查」的视觉侦探。

核心机制:Think-Act-Observe 循环

Agentic Vision 的核心是一个借鉴自 AI Agent 领域的经典范式——Think-Act-Observe 循环。这个循环让图像理解从「一步到位」变成了「迭代求精」:

阶段行为类比
Think(思考)分析用户问题和原始图像,制定多步骤调查计划侦探接到案件,规划调查路线
Act(行动)生成并执行 Python 代码,对图像进行裁剪、缩放、旋转、标注、计算侦探拿出放大镜,翻转证物,做笔记
Observe(观察)将处理后的图像追加到上下文窗口,基于新的视觉证据重新推理侦探审视新发现的线索,修正判断

关键在于:这不是一个单次流程,而是一个可以多次迭代的循环。模型可以先裁剪出图片的左上角,发现不够清晰,再进一步放大某个局部区域,直到获得足够的视觉证据。

这种设计的精妙之处在于,它把「代码执行」变成了视觉推理的工具。模型不是在「看图说话」,而是在「用代码操作图像,然后基于操作结果说话」。这是一个根本性的范式转变。

三个杀手级应用场景

场景一:高精度图纸验证

建筑行业的 AI 平台 PlanCheckSolver 是第一批吃螃蟹的。他们用 Agentic Vision 来验证建筑图纸是否符合建筑规范。工作流程是这样的:Gemini 3 Flash 接收一张高分辨率的建筑平面图,自动生成 Python 代码裁剪出屋顶边缘、建筑截面等关键区域,将裁剪后的图像作为新的输入追加到上下文中,然后逐一检查这些区域是否符合复杂的建筑法规。

结果:启用代码执行后,准确率提升了 5%。在建筑合规这种「差一毫米就违规」的场景中,5% 的提升意味着大量减少的人工复核工作。

场景二:视觉草稿纸——数手指终于数对了

AI 数手指数错,几乎是一个行业笑话。Agentic Vision 的解决方案堪称优雅:当被要求数手指时,模型不再「看一眼就报数」,而是先用 Python 在每根手指上画出边界框和数字标签,生成一张「标注版」图像,然后基于这张标注图来计数。

这就像你数一堆硬币时,不是用眼睛扫一遍,而是一个一个拿出来排好再数——方法笨了点,但准确率高了一个量级。Google 声称这种「视觉草稿纸」方法已经解决了这个臭名昭著的难题。

场景三:确定性计算取代概率猜测

让大语言模型做多步数学运算,尤其是从图片中的表格提取数据再计算,一直是幻觉重灾区。Agentic Vision 的策略是:让模型负责「看」和「规划」,让 Python 负责「算」和「画图」。

具体来说,模型从图片中识别出表格数据,然后编写 Python 代码用 Matplotlib 生成标准化的柱状图。整个计算过程在确定性的 Python 环境中完成,而不是在概率性的神经网络中「猜」出来。这是一个非常聪明的分工:感知和规划交给神经网络,精确计算交给传统编程。

为什么这是一次范式转变,而不只是功能升级

表面上看,Agentic Vision 只是「让模型在看图时可以执行代码」。但如果我们把视角拉远,会发现它触及了 AI 视觉领域的一个根本性问题:AI 应该如何「看」世界?

过去十年,计算机视觉的主流范式是「端到端」——输入图像,输出结果,中间全靠神经网络黑箱处理。这种方式在大多数场景下表现优秀,但在需要精细理解的场景中频频翻车。

Agentic Vision 提出了一种混合范式:

神经网络负责「感知」和「决策」,传统代码负责「操作」和「验证」。两者通过 Agent 循环协同工作,互相补充。

这种思路其实和人类的视觉认知高度一致。人类看一张复杂的图表时,不会试图一眼记住所有数据——我们会用手指指着一行一行看,会拿出计算器验算,会把关键数字抄下来对比。Agentic Vision 本质上就是在教 AI 做同样的事情。

更深层的意义在于,这可能预示着 AI 系统设计的一个大趋势:从「单一模型解决一切」转向「模型 + 工具协同」。模型擅长模糊推理和创造性思考,工具擅长精确执行和确定性计算。把两者结合起来,比单纯堆参数量更有效。

竞争格局:谁在做类似的事?

值得注意的是,OpenAI 的 ChatGPT 其实很早就通过 Code Interpreter 实现了类似的能力——用户上传图片后,ChatGPT 可以调用 Python 来处理和分析图像。但正如 Reddit 用户指出的,ChatGPT 的实现更像是一个「被动工具」:用户需要明确要求它使用代码来处理图像。

Gemini 3 Flash 的 Agentic Vision 的不同之处在于「隐式触发」——模型会自主判断何时需要放大、标注或计算,而不需要用户明确指示。Google 的路线图也明确表示,未来会让更多行为变成完全隐式的,包括自动旋转、自动触发网页搜索和反向图片搜索等。

这种「隐式 Agent 行为」的设计哲学,可能比技术本身更值得关注。它意味着 AI 正在从「工具」向「助手」进化——不是你告诉它怎么做,而是它自己判断该怎么做。

局限性与未来挑战

当然,Agentic Vision 并非完美。目前存在几个明显的局限:

延迟问题:每次 Think-Act-Observe 循环都意味着额外的代码生成和执行时间。对于需要实时响应的场景(如自动驾驶、视频分析),这种迭代式方法可能太慢。

成本问题:多次循环意味着更多的 token 消耗和计算资源。在大规模部署中,这会显著增加成本。

代码安全:让模型自主生成并执行 Python 代码,本身就是一个安全风险。虽然 Google 肯定做了沙箱隔离,但在企业级应用中,这仍然是一个需要仔细评估的问题。

模型覆盖:目前 Agentic Vision 仅支持 Gemini 3 Flash,尚未扩展到 Pro 和 Ultra 等更强大的模型。Google 表示未来会扩展,但时间表未定。

富贵点评

Agentic Vision 让我想到一个有趣的类比:传统的 AI 视觉就像考试时「只能看一遍题目就交卷」,而 Agentic Vision 就像「可以在草稿纸上画图、列算式、反复验算再交卷」。结果当然不一样。

但我更关注的是它背后的设计哲学。过去几年,AI 行业一直在追求「更大的模型、更多的参数」,仿佛只要模型够大就能解决一切问题。Agentic Vision 提供了一个不同的思路:与其让模型「一步到位」地解决问题,不如给它工具,让它「分步骤」地解决问题。这种「模型 + 工具」的混合架构,可能比单纯堆参数更有效率,也更可靠。

从产业角度看,这对建筑、医疗影像、工业质检等需要精细视觉理解的行业是一个重大利好。5-10% 的准确率提升听起来不多,但在「差之毫厘、谬以千里」的专业场景中,这可能意味着从「不可用」到「可用」的质变。

不过,我也想泼一盆冷水:目前 Agentic Vision 的迭代式方法在延迟和成本上的代价不容忽视。在实时性要求高的场景中,「看三遍再回答」可能不如「看一遍就回答」实用。未来的关键在于如何在准确性和效率之间找到平衡点。

📋 要点回顾

  • 核心创新:Agentic Vision 将图像理解从「一次性快照」升级为 Think-Act-Observe 迭代循环,模型可以自主编写 Python 代码操作图像
  • 性能提升:在大多数视觉基准测试中带来 5-10% 的质量提升,建筑图纸验证平台 PlanCheckSolver 准确率提升 5%
  • 三大能力:自动缩放检查细节、图像标注作为「视觉草稿纸」、确定性代码执行取代概率猜测
  • 范式意义:从「端到端神经网络」转向「神经网络 + 工具协同」的混合架构,模型负责感知和决策,代码负责操作和验证
  • 竞争对比:ChatGPT 的 Code Interpreter 提供类似能力但需用户主动触发,Gemini 的 Agentic Vision 强调「隐式触发」的自主判断
  • 当前局限:迭代循环带来延迟和成本增加,仅支持 Flash 模型,代码执行存在安全考量

❓ 常见问题

Q: Agentic Vision 和普通的多模态模型有什么区别?

A: 普通多模态模型对图像只做一次处理——把图片转成向量然后生成回答,看不清的地方只能猜。Agentic Vision 则允许模型像侦探一样反复调查:自动放大细节、在图上做标注、用代码计算,基于处理后的新证据再回答。本质区别是从「被动看一眼」变成了「主动查多遍」。

Q: 5-10% 的提升听起来不大,实际意义是什么?

A: 在通用场景中 5-10% 确实不算惊人,但在专业场景中意义重大。比如建筑图纸合规检查,一个数字读错可能导致整栋楼不合规;医疗影像中一个细节遗漏可能影响诊断。在这些「零容错」场景中,5% 的提升可能意味着从「不可商用」到「可以商用」的跨越。

Q: 开发者现在就能用 Agentic Vision 吗?

A: 可以。Agentic Vision 已通过 Google AI Studio 和 Vertex AI 的 Gemini API 开放使用。在 AI Studio Playground 中,只需在 Tools 设置中开启「Code Execution」即可启用。Gemini 应用中也已开始灰度上线,选择「Thinking」模式即可体验。

Q: 这项技术未来会扩展到哪些方向?

A: Google 的路线图包括三个方向:一是让更多视觉行为变成隐式触发(如自动旋转、自动缩放),无需用户明确指示;二是增加更多工具支持,包括网页搜索和反向图片搜索;三是将 Agentic Vision 扩展到 Flash 以外的其他 Gemini 模型。

作者:王富贵 | 发布时间:2026年2月8日

参考来源:Google DeepMind Blog - Introducing Agentic Vision in Gemini 3 Flash · MarkTechPost · InfoQ