Google 发布 Gemini 3.1 Pro:ARC-AGI-2 推理得分 77.1% 翻倍碾压前代,但 Arena 排行榜仍不敌 Opus 4.6

📌 一句话总结:Google 发布 Gemini 3.1 Pro,ARC-AGI-2 推理基准得分 77.1% 较前代翻倍,超越 Opus 4.6 和 GPT-5.2,但 Arena 排行榜仍落后 Opus 4.6 四分,定价与前代持平。

2026年2月20日 · AI资讯 · 阅读时间约 5 分钟

2 月 19 日,Google 正式发布 Gemini 3.1 Pro——Gemini 3 系列的重大升级版本。这款模型在多个推理基准上实现了跨越式提升,尤其在 ARC-AGI-2 抽象逻辑测试中得分从前代的 31.1% 飙升至 77.1%,直接翻了一倍多。Google 称,这也是上周 Gemini 3 Deep Think 更新背后的「核心智能引擎」。

基准测试:推理能力全面跃升

Gemini 3.1 Pro 在多项关键基准上的表现令人瞩目:

基准测试 Gemini 3.1 Pro Gemini 3 Pro Opus 4.6 GPT-5.2
ARC-AGI-2(抽象逻辑) 77.1% 31.1% 68.8% 52.9%
Humanity's Last Exam 44.4% 37.5% 34.5%
GPQA Diamond(科学知识) 94.3%
SWE-Bench Verified(编码) 80.6% 80.8%
LiveCodeBench Pro(Elo) 2,887 2,439 2,393
BrowseComp(浏览能力) 85.9%
MCP Atlas(Agent 能力) 69.2%

ARC-AGI-2 是一个专门评估模型解决全新逻辑模式能力的基准——这些模式在训练数据中从未出现过。Gemini 3.1 Pro 在这项测试上的得分不仅翻倍超越自家前代,还大幅领先 Opus 4.6(68.8%)和 GPT-5.2(52.9%)。

不过,Gemini 3.1 Pro 并非全面碾压。在 Arena 排行榜(用户投票制)上,Opus 4.6 在文本领域仍以 1504 分领先 Gemini 3.1 Pro 约 4 分。在编码领域,Opus 4.6、Opus 4.5 和 GPT-5.2 High 也都略微领先。此外,在带工具使用的 Humanity's Last Exam 中,Opus 4.6 以 53.1% 拿下榜首。Ars Technica 指出,Google 当前模型在工具调用效率上仍不及竞争对手。

实际应用:从 ISS 轨道追踪到 SVG 动画生成

Google 展示了 3.1 Pro 的几个实际应用场景,突出其「高级推理转化为实用能力」的定位:

  • 航天仪表盘:模型独立配置公共遥测数据流,构建了一个实时可视化国际空间站轨道的仪表盘
  • 代码动画生成:直接从文本提示生成可嵌入网站的 SVG 动画,纯代码实现,任意缩放不失真
  • 3D 交互设计:编写复杂的 3D 椋鸟群飞模拟,支持手部追踪交互和基于鸟群运动的生成式配乐
  • 创意编码:将文学主题转化为功能代码,为《呼啸山庄》设计了一个捕捉小说氛围的现代个人网站

定价与可用性:与前代持平,全平台铺开

Gemini 3.1 Pro 目前以预览版形式在多个平台同步上线:

  • 开发者:Gemini API(AI Studio)、Gemini CLI、Google Antigravity、Android Studio
  • 企业:Vertex AI、Gemini Enterprise
  • 消费者:Gemini App、NotebookLM(Pro/Ultra 订阅用户)

API 定价与 Gemini 3 Pro 保持一致:输入 $2.00/百万 token(200K 以上 $4.00),输出 $12.00/百万 token(200K 以上 $18.00)。相比 Opus 系列的 $15/百万输入 token,价格优势明显。

富贵点评

Google 这次的策略很清晰:用 ARC-AGI-2 这个「纯推理」基准来讲故事,77.1% 的成绩确实亮眼。但有意思的是,Arena 排行榜上 Opus 4.6 仍然领先——这说明「解题能力强」和「用户觉得好用」之间还有一段距离。

更值得关注的是定价策略。Gemini 3.1 Pro 的输入价格只有 Opus 4.6 的七分之一,但在 SWE-Bench 编码测试上几乎打平(80.6% vs 80.8%)。对于预算敏感的开发者来说,这个性价比相当有吸引力。Google 正在用「够用的智能 + 极致的性价比」来抢占市场,而不是单纯追求跑分第一。

另外,Google 在工具调用和 Agent 能力上的短板仍然存在。在 Agent 时代,光有推理能力不够,还得能高效地调用外部工具、协调多步骤任务。这可能是 Google 接下来需要重点突破的方向。

📋 要点回顾

  • 推理翻倍:ARC-AGI-2 得分从 31.1% 跃升至 77.1%,超越 Opus 4.6(68.8%)和 GPT-5.2(52.9%)
  • 编码接近持平:SWE-Bench Verified 80.6%,仅落后 Opus 4.6 的 80.8% 零点二个百分点
  • Arena 仍落后:用户投票排行榜上 Opus 4.6 在文本和编码领域仍保持领先
  • 价格不变:输入 $2/百万 token,输出 $12/百万 token,约为 Opus 4.6 的七分之一
  • 全平台上线:AI Studio、Vertex AI、Gemini CLI、Antigravity、Gemini App、NotebookLM 同步可用

❓ 常见问题

Q: Gemini 3.1 Pro 和 Gemini 3 Pro 有什么区别?

A: 最大的区别在推理能力。ARC-AGI-2 基准得分从 31.1% 提升到 77.1%,翻了一倍多。Humanity's Last Exam 也从 37.5% 提升到 44.4%。Google 称 3.1 Pro 是 Deep Think 背后的「核心智能引擎」升级版。

Q: Gemini 3.1 Pro 是目前最强的 AI 模型吗?

A: 取决于评估维度。在 ARC-AGI-2 抽象推理和 Humanity's Last Exam 上它确实领先,但在 Arena 用户投票排行榜上 Opus 4.6 仍然排名更高,在工具使用能力上也不及竞品。没有哪个模型在所有维度上都是第一。

Q: 普通用户怎么使用 Gemini 3.1 Pro?

A: 可以通过 Gemini App 直接使用,Pro 和 Ultra 订阅用户还能在 NotebookLM 中体验。开发者可以通过 Gemini API、AI Studio 或 Gemini CLI 接入。目前仍为预览版,正式版将在收集反馈后推出。

作者:王富贵 | 发布时间:2026年2月20日

参考来源:Google Blog · The Decoder · Ars Technica · VentureBeat