📌 一句话总结:Google 发布 Gemini 3.1 Pro,ARC-AGI-2 推理基准得分 77.1% 较前代翻倍,超越 Opus 4.6 和 GPT-5.2,但 Arena 排行榜仍落后 Opus 4.6 四分,定价与前代持平。
2026年2月20日 · AI资讯 · 阅读时间约 5 分钟
2 月 19 日,Google 正式发布 Gemini 3.1 Pro——Gemini 3 系列的重大升级版本。这款模型在多个推理基准上实现了跨越式提升,尤其在 ARC-AGI-2 抽象逻辑测试中得分从前代的 31.1% 飙升至 77.1%,直接翻了一倍多。Google 称,这也是上周 Gemini 3 Deep Think 更新背后的「核心智能引擎」。
基准测试:推理能力全面跃升
Gemini 3.1 Pro 在多项关键基准上的表现令人瞩目:
| 基准测试 | Gemini 3.1 Pro | Gemini 3 Pro | Opus 4.6 | GPT-5.2 |
|---|---|---|---|---|
| ARC-AGI-2(抽象逻辑) | 77.1% | 31.1% | 68.8% | 52.9% |
| Humanity's Last Exam | 44.4% | 37.5% | — | 34.5% |
| GPQA Diamond(科学知识) | 94.3% | — | — | — |
| SWE-Bench Verified(编码) | 80.6% | — | 80.8% | — |
| LiveCodeBench Pro(Elo) | 2,887 | 2,439 | — | 2,393 |
| BrowseComp(浏览能力) | 85.9% | — | — | — |
| MCP Atlas(Agent 能力) | 69.2% | — | — | — |
ARC-AGI-2 是一个专门评估模型解决全新逻辑模式能力的基准——这些模式在训练数据中从未出现过。Gemini 3.1 Pro 在这项测试上的得分不仅翻倍超越自家前代,还大幅领先 Opus 4.6(68.8%)和 GPT-5.2(52.9%)。
不过,Gemini 3.1 Pro 并非全面碾压。在 Arena 排行榜(用户投票制)上,Opus 4.6 在文本领域仍以 1504 分领先 Gemini 3.1 Pro 约 4 分。在编码领域,Opus 4.6、Opus 4.5 和 GPT-5.2 High 也都略微领先。此外,在带工具使用的 Humanity's Last Exam 中,Opus 4.6 以 53.1% 拿下榜首。Ars Technica 指出,Google 当前模型在工具调用效率上仍不及竞争对手。
实际应用:从 ISS 轨道追踪到 SVG 动画生成
Google 展示了 3.1 Pro 的几个实际应用场景,突出其「高级推理转化为实用能力」的定位:
- 航天仪表盘:模型独立配置公共遥测数据流,构建了一个实时可视化国际空间站轨道的仪表盘
- 代码动画生成:直接从文本提示生成可嵌入网站的 SVG 动画,纯代码实现,任意缩放不失真
- 3D 交互设计:编写复杂的 3D 椋鸟群飞模拟,支持手部追踪交互和基于鸟群运动的生成式配乐
- 创意编码:将文学主题转化为功能代码,为《呼啸山庄》设计了一个捕捉小说氛围的现代个人网站
定价与可用性:与前代持平,全平台铺开
Gemini 3.1 Pro 目前以预览版形式在多个平台同步上线:
- 开发者:Gemini API(AI Studio)、Gemini CLI、Google Antigravity、Android Studio
- 企业:Vertex AI、Gemini Enterprise
- 消费者:Gemini App、NotebookLM(Pro/Ultra 订阅用户)
API 定价与 Gemini 3 Pro 保持一致:输入 $2.00/百万 token(200K 以上 $4.00),输出 $12.00/百万 token(200K 以上 $18.00)。相比 Opus 系列的 $15/百万输入 token,价格优势明显。
富贵点评
Google 这次的策略很清晰:用 ARC-AGI-2 这个「纯推理」基准来讲故事,77.1% 的成绩确实亮眼。但有意思的是,Arena 排行榜上 Opus 4.6 仍然领先——这说明「解题能力强」和「用户觉得好用」之间还有一段距离。
更值得关注的是定价策略。Gemini 3.1 Pro 的输入价格只有 Opus 4.6 的七分之一,但在 SWE-Bench 编码测试上几乎打平(80.6% vs 80.8%)。对于预算敏感的开发者来说,这个性价比相当有吸引力。Google 正在用「够用的智能 + 极致的性价比」来抢占市场,而不是单纯追求跑分第一。
另外,Google 在工具调用和 Agent 能力上的短板仍然存在。在 Agent 时代,光有推理能力不够,还得能高效地调用外部工具、协调多步骤任务。这可能是 Google 接下来需要重点突破的方向。
📋 要点回顾
- 推理翻倍:ARC-AGI-2 得分从 31.1% 跃升至 77.1%,超越 Opus 4.6(68.8%)和 GPT-5.2(52.9%)
- 编码接近持平:SWE-Bench Verified 80.6%,仅落后 Opus 4.6 的 80.8% 零点二个百分点
- Arena 仍落后:用户投票排行榜上 Opus 4.6 在文本和编码领域仍保持领先
- 价格不变:输入 $2/百万 token,输出 $12/百万 token,约为 Opus 4.6 的七分之一
- 全平台上线:AI Studio、Vertex AI、Gemini CLI、Antigravity、Gemini App、NotebookLM 同步可用
❓ 常见问题
Q: Gemini 3.1 Pro 和 Gemini 3 Pro 有什么区别?
A: 最大的区别在推理能力。ARC-AGI-2 基准得分从 31.1% 提升到 77.1%,翻了一倍多。Humanity's Last Exam 也从 37.5% 提升到 44.4%。Google 称 3.1 Pro 是 Deep Think 背后的「核心智能引擎」升级版。
Q: Gemini 3.1 Pro 是目前最强的 AI 模型吗?
A: 取决于评估维度。在 ARC-AGI-2 抽象推理和 Humanity's Last Exam 上它确实领先,但在 Arena 用户投票排行榜上 Opus 4.6 仍然排名更高,在工具使用能力上也不及竞品。没有哪个模型在所有维度上都是第一。
Q: 普通用户怎么使用 Gemini 3.1 Pro?
A: 可以通过 Gemini App 直接使用,Pro 和 Ultra 订阅用户还能在 NotebookLM 中体验。开发者可以通过 Gemini API、AI Studio 或 Gemini CLI 接入。目前仍为预览版,正式版将在收集反馈后推出。
作者:王富贵 | 发布时间:2026年2月20日
参考来源:Google Blog · The Decoder · Ars Technica · VentureBeat