从「看一眼」到「反复查」：Google Agentic Vision 如何让 AI 学会像侦探一样看图

📌 一句话总结：Google 在 Gemini 3 Flash 中推出 Agentic Vision，让 AI 从「看一眼就猜」进化为「看不清就放大、标注、计算再回答」，视觉基准测试提升 5-10%，标志着 AI 视觉从被动感知迈向主动认知。

2026年2月8日 · 深度解读 · 阅读时间约 8 分钟

你有没有过这样的经历：拍了一张建筑图纸的照片发给 AI，让它帮你读上面的尺寸标注，结果它信誓旦旦地给你一个错误数字？或者让 AI 数一数照片里有几根手指，它居然数出了六根？

这不是 AI「笨」，而是它的视觉系统有一个根本性的设计缺陷——只看一眼。

传统的多模态 AI 模型处理图像的方式，本质上就是「一次性快照」：把整张图压缩成一组向量，然后基于这组向量生成回答。如果图片中有一个细小的序列号、一行模糊的文字、或者密密麻麻的表格数据，模型看不清怎么办？它不会说「等等，让我放大看看」——它会直接猜。

这就是「幻觉」的重要来源之一。

Google DeepMind 团队在 1 月 27 日发布的 Agentic Vision，正是要解决这个问题。它让 Gemini 3 Flash 从一个「扫一眼就回答」的被动观察者，变成了一个「反复查看、主动调查」的视觉侦探。

核心机制：Think-Act-Observe 循环

Agentic Vision 的核心是一个借鉴自 AI Agent 领域的经典范式——Think-Act-Observe 循环。这个循环让图像理解从「一步到位」变成了「迭代求精」：

阶段	行为	类比
Think（思考）	分析用户问题和原始图像，制定多步骤调查计划	侦探接到案件，规划调查路线
Act（行动）	生成并执行 Python 代码，对图像进行裁剪、缩放、旋转、标注、计算	侦探拿出放大镜，翻转证物，做笔记
Observe（观察）	将处理后的图像追加到上下文窗口，基于新的视觉证据重新推理	侦探审视新发现的线索，修正判断

关键在于：这不是一个单次流程，而是一个可以多次迭代的循环。模型可以先裁剪出图片的左上角，发现不够清晰，再进一步放大某个局部区域，直到获得足够的视觉证据。

这种设计的精妙之处在于，它把「代码执行」变成了视觉推理的工具。模型不是在「看图说话」，而是在「用代码操作图像，然后基于操作结果说话」。这是一个根本性的范式转变。

三个杀手级应用场景

场景一：高精度图纸验证

建筑行业的 AI 平台 PlanCheckSolver 是第一批吃螃蟹的。他们用 Agentic Vision 来验证建筑图纸是否符合建筑规范。工作流程是这样的：Gemini 3 Flash 接收一张高分辨率的建筑平面图，自动生成 Python 代码裁剪出屋顶边缘、建筑截面等关键区域，将裁剪后的图像作为新的输入追加到上下文中，然后逐一检查这些区域是否符合复杂的建筑法规。

结果：启用代码执行后，准确率提升了 5%。在建筑合规这种「差一毫米就违规」的场景中，5% 的提升意味着大量减少的人工复核工作。

场景二：视觉草稿纸——数手指终于数对了

AI 数手指数错，几乎是一个行业笑话。Agentic Vision 的解决方案堪称优雅：当被要求数手指时，模型不再「看一眼就报数」，而是先用 Python 在每根手指上画出边界框和数字标签，生成一张「标注版」图像，然后基于这张标注图来计数。

这就像你数一堆硬币时，不是用眼睛扫一遍，而是一个一个拿出来排好再数——方法笨了点，但准确率高了一个量级。Google 声称这种「视觉草稿纸」方法已经解决了这个臭名昭著的难题。

场景三：确定性计算取代概率猜测

让大语言模型做多步数学运算，尤其是从图片中的表格提取数据再计算，一直是幻觉重灾区。Agentic Vision 的策略是：让模型负责「看」和「规划」，让 Python 负责「算」和「画图」。

具体来说，模型从图片中识别出表格数据，然后编写 Python 代码用 Matplotlib 生成标准化的柱状图。整个计算过程在确定性的 Python 环境中完成，而不是在概率性的神经网络中「猜」出来。这是一个非常聪明的分工：感知和规划交给神经网络，精确计算交给传统编程。

为什么这是一次范式转变，而不只是功能升级

表面上看，Agentic Vision 只是「让模型在看图时可以执行代码」。但如果我们把视角拉远，会发现它触及了 AI 视觉领域的一个根本性问题：AI 应该如何「看」世界？

过去十年，计算机视觉的主流范式是「端到端」——输入图像，输出结果，中间全靠神经网络黑箱处理。这种方式在大多数场景下表现优秀，但在需要精细理解的场景中频频翻车。

Agentic Vision 提出了一种混合范式：

神经网络负责「感知」和「决策」，传统代码负责「操作」和「验证」。两者通过 Agent 循环协同工作，互相补充。

这种思路其实和人类的视觉认知高度一致。人类看一张复杂的图表时，不会试图一眼记住所有数据——我们会用手指指着一行一行看，会拿出计算器验算，会把关键数字抄下来对比。Agentic Vision 本质上就是在教 AI 做同样的事情。

更深层的意义在于，这可能预示着 AI 系统设计的一个大趋势：从「单一模型解决一切」转向「模型 + 工具协同」。模型擅长模糊推理和创造性思考，工具擅长精确执行和确定性计算。把两者结合起来，比单纯堆参数量更有效。

竞争格局：谁在做类似的事？

值得注意的是，OpenAI 的 ChatGPT 其实很早就通过 Code Interpreter 实现了类似的能力——用户上传图片后，ChatGPT 可以调用 Python 来处理和分析图像。但正如 Reddit 用户指出的，ChatGPT 的实现更像是一个「被动工具」：用户需要明确要求它使用代码来处理图像。

Gemini 3 Flash 的 Agentic Vision 的不同之处在于「隐式触发」——模型会自主判断何时需要放大、标注或计算，而不需要用户明确指示。Google 的路线图也明确表示，未来会让更多行为变成完全隐式的，包括自动旋转、自动触发网页搜索和反向图片搜索等。

这种「隐式 Agent 行为」的设计哲学，可能比技术本身更值得关注。它意味着 AI 正在从「工具」向「助手」进化——不是你告诉它怎么做，而是它自己判断该怎么做。

局限性与未来挑战

当然，Agentic Vision 并非完美。目前存在几个明显的局限：

延迟问题：每次 Think-Act-Observe 循环都意味着额外的代码生成和执行时间。对于需要实时响应的场景（如自动驾驶、视频分析），这种迭代式方法可能太慢。

成本问题：多次循环意味着更多的 token 消耗和计算资源。在大规模部署中，这会显著增加成本。

代码安全：让模型自主生成并执行 Python 代码，本身就是一个安全风险。虽然 Google 肯定做了沙箱隔离，但在企业级应用中，这仍然是一个需要仔细评估的问题。

模型覆盖：目前 Agentic Vision 仅支持 Gemini 3 Flash，尚未扩展到 Pro 和 Ultra 等更强大的模型。Google 表示未来会扩展，但时间表未定。

富贵点评

Agentic Vision 让我想到一个有趣的类比：传统的 AI 视觉就像考试时「只能看一遍题目就交卷」，而 Agentic Vision 就像「可以在草稿纸上画图、列算式、反复验算再交卷」。结果当然不一样。

但我更关注的是它背后的设计哲学。过去几年，AI 行业一直在追求「更大的模型、更多的参数」，仿佛只要模型够大就能解决一切问题。Agentic Vision 提供了一个不同的思路：与其让模型「一步到位」地解决问题，不如给它工具，让它「分步骤」地解决问题。这种「模型 + 工具」的混合架构，可能比单纯堆参数更有效率，也更可靠。

从产业角度看，这对建筑、医疗影像、工业质检等需要精细视觉理解的行业是一个重大利好。5-10% 的准确率提升听起来不多，但在「差之毫厘、谬以千里」的专业场景中，这可能意味着从「不可用」到「可用」的质变。

不过，我也想泼一盆冷水：目前 Agentic Vision 的迭代式方法在延迟和成本上的代价不容忽视。在实时性要求高的场景中，「看三遍再回答」可能不如「看一遍就回答」实用。未来的关键在于如何在准确性和效率之间找到平衡点。

📋 要点回顾

核心创新：Agentic Vision 将图像理解从「一次性快照」升级为 Think-Act-Observe 迭代循环，模型可以自主编写 Python 代码操作图像
性能提升：在大多数视觉基准测试中带来 5-10% 的质量提升，建筑图纸验证平台 PlanCheckSolver 准确率提升 5%
三大能力：自动缩放检查细节、图像标注作为「视觉草稿纸」、确定性代码执行取代概率猜测
范式意义：从「端到端神经网络」转向「神经网络 + 工具协同」的混合架构，模型负责感知和决策，代码负责操作和验证
竞争对比：ChatGPT 的 Code Interpreter 提供类似能力但需用户主动触发，Gemini 的 Agentic Vision 强调「隐式触发」的自主判断
当前局限：迭代循环带来延迟和成本增加，仅支持 Flash 模型，代码执行存在安全考量

❓ 常见问题

Q: Agentic Vision 和普通的多模态模型有什么区别？

A: 普通多模态模型对图像只做一次处理——把图片转成向量然后生成回答，看不清的地方只能猜。Agentic Vision 则允许模型像侦探一样反复调查：自动放大细节、在图上做标注、用代码计算，基于处理后的新证据再回答。本质区别是从「被动看一眼」变成了「主动查多遍」。

Q: 5-10% 的提升听起来不大，实际意义是什么？

A: 在通用场景中 5-10% 确实不算惊人，但在专业场景中意义重大。比如建筑图纸合规检查，一个数字读错可能导致整栋楼不合规；医疗影像中一个细节遗漏可能影响诊断。在这些「零容错」场景中，5% 的提升可能意味着从「不可商用」到「可以商用」的跨越。

Q: 开发者现在就能用 Agentic Vision 吗？

A: 可以。Agentic Vision 已通过 Google AI Studio 和 Vertex AI 的 Gemini API 开放使用。在 AI Studio Playground 中，只需在 Tools 设置中开启「Code Execution」即可启用。Gemini 应用中也已开始灰度上线，选择「Thinking」模式即可体验。

Q: 这项技术未来会扩展到哪些方向？

A: Google 的路线图包括三个方向：一是让更多视觉行为变成隐式触发（如自动旋转、自动缩放），无需用户明确指示；二是增加更多工具支持，包括网页搜索和反向图片搜索；三是将 Agentic Vision 扩展到 Flash 以外的其他 Gemini 模型。

作者：王富贵 | 发布时间：2026年2月8日

参考来源：Google DeepMind Blog - Introducing Agentic Vision in Gemini 3 Flash · MarkTechPost · InfoQ