Google 发布 Gemini 3.1 Pro：ARC-AGI-2 推理得分 77.1% 翻倍碾压前代，但 Arena 排行榜仍不敌 Opus 4.6

📌 一句话总结：Google 发布 Gemini 3.1 Pro，ARC-AGI-2 推理基准得分 77.1% 较前代翻倍，超越 Opus 4.6 和 GPT-5.2，但 Arena 排行榜仍落后 Opus 4.6 四分，定价与前代持平。

2026年2月20日 · AI资讯 · 阅读时间约 5 分钟

2 月 19 日，Google 正式发布 Gemini 3.1 Pro——Gemini 3 系列的重大升级版本。这款模型在多个推理基准上实现了跨越式提升，尤其在 ARC-AGI-2 抽象逻辑测试中得分从前代的 31.1% 飙升至 77.1%，直接翻了一倍多。Google 称，这也是上周 Gemini 3 Deep Think 更新背后的「核心智能引擎」。

基准测试：推理能力全面跃升

Gemini 3.1 Pro 在多项关键基准上的表现令人瞩目：

基准测试	Gemini 3.1 Pro	Gemini 3 Pro	Opus 4.6	GPT-5.2
ARC-AGI-2（抽象逻辑）	77.1%	31.1%	68.8%	52.9%
Humanity's Last Exam	44.4%	37.5%	—	34.5%
GPQA Diamond（科学知识）	94.3%	—	—	—
SWE-Bench Verified（编码）	80.6%	—	80.8%	—
LiveCodeBench Pro（Elo）	2,887	2,439	—	2,393
BrowseComp（浏览能力）	85.9%	—	—	—
MCP Atlas（Agent 能力）	69.2%	—	—	—

ARC-AGI-2 是一个专门评估模型解决全新逻辑模式能力的基准——这些模式在训练数据中从未出现过。Gemini 3.1 Pro 在这项测试上的得分不仅翻倍超越自家前代，还大幅领先 Opus 4.6（68.8%）和 GPT-5.2（52.9%）。

不过，Gemini 3.1 Pro 并非全面碾压。在 Arena 排行榜（用户投票制）上，Opus 4.6 在文本领域仍以 1504 分领先 Gemini 3.1 Pro 约 4 分。在编码领域，Opus 4.6、Opus 4.5 和 GPT-5.2 High 也都略微领先。此外，在带工具使用的 Humanity's Last Exam 中，Opus 4.6 以 53.1% 拿下榜首。Ars Technica 指出，Google 当前模型在工具调用效率上仍不及竞争对手。

实际应用：从 ISS 轨道追踪到 SVG 动画生成

Google 展示了 3.1 Pro 的几个实际应用场景，突出其「高级推理转化为实用能力」的定位：

航天仪表盘：模型独立配置公共遥测数据流，构建了一个实时可视化国际空间站轨道的仪表盘
代码动画生成：直接从文本提示生成可嵌入网站的 SVG 动画，纯代码实现，任意缩放不失真
3D 交互设计：编写复杂的 3D 椋鸟群飞模拟，支持手部追踪交互和基于鸟群运动的生成式配乐
创意编码：将文学主题转化为功能代码，为《呼啸山庄》设计了一个捕捉小说氛围的现代个人网站

定价与可用性：与前代持平，全平台铺开

Gemini 3.1 Pro 目前以预览版形式在多个平台同步上线：

开发者：Gemini API（AI Studio）、Gemini CLI、Google Antigravity、Android Studio
企业：Vertex AI、Gemini Enterprise
消费者：Gemini App、NotebookLM（Pro/Ultra 订阅用户）

API 定价与 Gemini 3 Pro 保持一致：输入 $2.00/百万 token（200K 以上 $4.00），输出 $12.00/百万 token（200K 以上 $18.00）。相比 Opus 系列的 $15/百万输入 token，价格优势明显。

富贵点评

Google 这次的策略很清晰：用 ARC-AGI-2 这个「纯推理」基准来讲故事，77.1% 的成绩确实亮眼。但有意思的是，Arena 排行榜上 Opus 4.6 仍然领先——这说明「解题能力强」和「用户觉得好用」之间还有一段距离。

更值得关注的是定价策略。Gemini 3.1 Pro 的输入价格只有 Opus 4.6 的七分之一，但在 SWE-Bench 编码测试上几乎打平（80.6% vs 80.8%）。对于预算敏感的开发者来说，这个性价比相当有吸引力。Google 正在用「够用的智能 + 极致的性价比」来抢占市场，而不是单纯追求跑分第一。

另外，Google 在工具调用和 Agent 能力上的短板仍然存在。在 Agent 时代，光有推理能力不够，还得能高效地调用外部工具、协调多步骤任务。这可能是 Google 接下来需要重点突破的方向。

📋 要点回顾

推理翻倍：ARC-AGI-2 得分从 31.1% 跃升至 77.1%，超越 Opus 4.6（68.8%）和 GPT-5.2（52.9%）
编码接近持平：SWE-Bench Verified 80.6%，仅落后 Opus 4.6 的 80.8% 零点二个百分点
Arena 仍落后：用户投票排行榜上 Opus 4.6 在文本和编码领域仍保持领先
价格不变：输入 $2/百万 token，输出 $12/百万 token，约为 Opus 4.6 的七分之一
全平台上线：AI Studio、Vertex AI、Gemini CLI、Antigravity、Gemini App、NotebookLM 同步可用

❓ 常见问题

Q: Gemini 3.1 Pro 和 Gemini 3 Pro 有什么区别？

A: 最大的区别在推理能力。ARC-AGI-2 基准得分从 31.1% 提升到 77.1%，翻了一倍多。Humanity's Last Exam 也从 37.5% 提升到 44.4%。Google 称 3.1 Pro 是 Deep Think 背后的「核心智能引擎」升级版。

Q: Gemini 3.1 Pro 是目前最强的 AI 模型吗？

A: 取决于评估维度。在 ARC-AGI-2 抽象推理和 Humanity's Last Exam 上它确实领先，但在 Arena 用户投票排行榜上 Opus 4.6 仍然排名更高，在工具使用能力上也不及竞品。没有哪个模型在所有维度上都是第一。

Q: 普通用户怎么使用 Gemini 3.1 Pro？

A: 可以通过 Gemini App 直接使用，Pro 和 Ultra 订阅用户还能在 NotebookLM 中体验。开发者可以通过 Gemini API、AI Studio 或 Gemini CLI 接入。目前仍为预览版，正式版将在收集反馈后推出。

作者：王富贵 | 发布时间：2026年2月20日

参考来源：Google Blog · The Decoder · Ars Technica · VentureBeat