Claude Opus 4.6 深度拆解：ARC AGI 2 得分翻倍、百万 Token 上下文、Agent 团队协作——Anthropic 如何用一次「小版本更新」重新定义 AI 能力边界

📌 一句话总结：Claude Opus 4.6 以「小版本号」之名行「换代」之实——ARC AGI 2 抽象推理翻倍至 68.8%、百万 Token 上下文窗口、Agent Teams 多智能体协作，价格不变，Anthropic 正在用技术密度碾压竞争对手。

2026年2月9日 · 深度解读 · 阅读时间约 8 分钟

版本号的障眼法：从 4.5 到 4.6，到底发生了什么

2 月 5 日，Anthropic 发布了 Claude Opus 4.6。如果只看版本号——从 4.5 到 4.6——你可能以为这只是一次例行的 bug 修复和小幅优化。但当你打开基准测试数据的那一刻，你会意识到这个「0.1」的版本号增量背后，藏着一次足以改变行业格局的能力跃迁。

先看最震撼的数字：在 ARC AGI 2 抽象推理测试中，Opus 4.6 得分 68.8%，而上一代 Opus 4.5 仅为 37.6%。这不是渐进式提升，这是接近翻倍。作为对比，Google 的 Gemini 3 Pro 得分 45.1%，OpenAI 的 GPT-5.2 Pro 得分 54.2%。Opus 4.6 一骑绝尘。

ARC AGI 2 之所以重要，是因为它测试的不是模型背了多少知识，而是面对从未见过的新问题时的推理能力——这恰恰是人类智能最核心的特征。Opus 4.6 在这个维度上的飞跃，意味着 AI 正在从「博学的鹦鹉」向「真正会思考的助手」迈出关键一步。

基准测试全景：哪些领域领先，哪些存在短板

让我们用数据说话。以下是 Opus 4.6 在各主要基准测试中的表现：

基准测试	Opus 4.6	Opus 4.5	GPT-5.2	Gemini 3 Pro
ARC AGI 2（抽象推理）	68.8%	37.6%	54.2%	45.1%
Terminal-Bench 2.0（终端编程）	65.4%	59.8%	64.7%	56.2%
BrowseComp（网络搜索）	84.0%	67.8%	77.9%	59.2%
GDPVal-AA Elo（知识工作）	1606	1416	1462	1195
OSWorld（计算机操控）	72.7%	66.3%	—	—
SWE-bench Verified（代码修复）	80.8%	80.9%	80.0%	76.2%
MRCR v2 1M（长上下文检索）	76.0%	—	—	—
MCP Atlas（大规模工具调用）	59.5%	62.3%	60.6%	54.1%

几个关键发现：

碾压级领先的领域：ARC AGI 2（+31.2pp）、BrowseComp（+16.2pp）、GDPVal-AA（+190 Elo）。这三个基准分别代表抽象推理、信息检索和知识工作——恰好是企业最需要的三种能力。

稳中有进的领域：Terminal-Bench 2.0（+5.6pp）、OSWorld（+6.4pp）、τ2-bench Retail（91.9%，+3pp）。编程和计算机操控能力持续提升。

值得关注的短板：SWE-bench Verified 微降 0.1pp（80.8% vs 80.9%），MCP Atlas 下降 2.8pp（59.5% vs 62.3%）。前者说明传统代码修复能力已接近天花板，后者暗示大规模工具协调可能存在取舍。

百万 Token 上下文：不只是数字变大了

Opus 4.6 是 Opus 家族首个支持百万 Token 上下文窗口的模型。这意味着什么？一百万 Token 大约相当于 750 万个英文单词，或者说你可以一次性塞进去十几本书、一整个代码仓库、或者一家公司过去一年的所有合同文件。

但上下文窗口大不等于用得好。很多模型在上下文变长后会出现「上下文腐烂」——越往后越记不住前面的内容。Opus 4.6 在 MRCR v2 基准测试中，百万 Token 级别的检索准确率达到 76%，而同家族的 Sonnet 4.5 仅为 18.5%。这个差距是惊人的。

「Anthropic 最新模型在长上下文性能上实现了有意义的飞跃。在我们的测试中，它处理大量信息时展现出的一致性，增强了我们设计和部署复杂研究工作流的能力。」
— Joel Hron，Thomson Reuters CTO（来源：IT Pro）

配合新引入的上下文压缩（Context Compaction）功能，当对话超过一定长度时，系统会自动总结较早的内容以释放上下文空间。这让 AI 可以进行超长时间的持续工作而不会「失忆」。

Agent Teams：从单兵作战到团队协作

如果说百万 Token 上下文是「记忆力」的升级，那么 Agent Teams 就是「组织力」的突破。

此前，Claude Code 一次只能运行一个 Agent，任务只能串行执行。现在，开发者可以将工作拆分给多个 Agent，它们并行工作、自主协调。这对于代码审查、大型项目重构等「读多写少」的任务尤其有用。

「Claude Opus 4.6 在一天内自主关闭了 13 个 Issue，并将 12 个 Issue 分配给了正确的团队成员，管理着一个约 50 人的组织、横跨 6 个代码仓库。它同时处理产品决策和组织决策，跨多个领域综合上下文，并且知道什么时候该升级给人类。」
— Yusuke Kaji，乐天 AI 总经理（来源：IT Pro）

这段话值得反复品味。一个 AI 系统在管理 50 人的组织、6 个代码仓库，自主做出产品和组织决策，并且知道什么时候该找人类帮忙。这已经不是「工具」的范畴了，这是「同事」的范畴。

自适应思考：AI 学会了「看菜下碟」

Opus 4.6 引入了自适应思考（Adaptive Thinking）机制。此前，开发者只能选择开启或关闭扩展思考模式——要么全力以赴，要么完全不想。现在，模型可以根据上下文线索自动判断一个问题需要多少「思考力度」，开发者也可以通过 effort 参数手动设置四个级别：low、medium、high（默认）和 max。

这个功能看似简单，实际意义深远。它意味着：

简单问题不会浪费算力和时间
复杂问题会自动投入更多推理资源
开发者可以在质量、速度和成本之间做精确权衡

对于企业级部署来说，这直接影响到 API 调用成本。一个处理客服工单的 Agent 不需要和一个做金融分析的 Agent 使用同样的推理深度。

价格不变的战略意图

Opus 4.6 的定价保持不变：输入 $5/百万 Token，输出 $25/百万 Token。能力大幅提升但价格不动，这不是慈善，而是战略。

Anthropic 正在同时打两场仗：

第一场：与 OpenAI 和 Google 的模型之争。在 ARC AGI 2、BrowseComp、GDPVal-AA 等关键基准上全面领先，用技术实力说话。

第二场：与整个 SaaS 行业的替代之争。就在 Opus 4.6 发布的同一周，Anthropic 的 Claude Cowork 插件引发了全球软件股 6110 亿美元的市值蒸发。Thomson Reuters 暴跌 20%，Morningstar 创 2009 年以来最大周跌幅。投资者的恐惧很简单：当 AI 能直接做法律审查、财务分析、客户支持，谁还需要按人头收费的 SaaS？

保持低价，就是在告诉企业客户：切换到 AI 的成本比你想象的低得多。

冷静看待：基准测试不是全部

在为这些数字兴奋之前，有几个问题值得冷静思考：

1. SWE-bench 的微降意味着什么？Opus 4.6 在 SWE-bench Verified 上从 80.9% 微降至 80.8%，MCP Atlas 从 62.3% 降至 59.5%。这两个基准分别测试代码修复和大规模工具协调。微降可能意味着 Anthropic 在训练时做了取舍——把资源集中在了抽象推理和 Agent 能力上。

2. 基准测试 ≠ 实际体验。模型在标准化测试中的表现和在真实工作场景中的表现之间，始终存在差距。一个在 Terminal-Bench 上得分最高的模型，不一定在你的特定代码库中表现最好。

3. 安全性的隐忧。Anthropic 声称 Opus 4.6 的安全性与 4.5 持平，在欺骗性、谄媚性等方面没有退步。但当一个模型变得更强大、更自主时，安全风险也在同步增长。Anthropic 为此部署了有史以来最全面的评估流程，包括新的用户福祉评估和六项全新的网络安全压力测试。

富贵点评

Opus 4.6 让我想到一个词：「降维打击」。

表面上看，这只是一个 0.1 的版本号更新。但 ARC AGI 2 翻倍、BrowseComp 跃升 16 个百分点、GDPVal-AA 领先 GPT-5.2 整整 144 Elo——这些数字放在一起，讲述的是一个完全不同的故事：Anthropic 不是在追赶，而是在定义游戏规则。

最让我印象深刻的不是某个单项基准，而是乐天那个案例——AI 管理 50 人团队、6 个代码仓库，自主做决策，知道什么时候该找人。这已经不是「AI 辅助」了，这是「AI 主导、人类监督」。我们正在目睹一个范式转换：从「人用 AI 工具」到「AI 用人类顾问」。

当然，基准测试永远只是故事的一部分。真正的考验是：当你把 Opus 4.6 放进你的工作流，它能不能持续、稳定、安全地交付价值？这个问题的答案，需要时间来验证。但有一点是确定的——AI 能力的进化速度，已经远远超出了大多数人的预期。上一代模型还在被讨论，下一代已经让它看起来像古董了。

📋 要点回顾

ARC AGI 2 抽象推理翻倍：从 37.6% 飙升至 68.8%，大幅领先 GPT-5.2（54.2%）和 Gemini 3 Pro（45.1%），标志着 AI 在面对全新问题时的推理能力实现质变
百万 Token 上下文窗口：Opus 家族首次支持，配合上下文压缩功能，可处理整个代码仓库或大量文档而不「失忆」，MRCR v2 百万级检索准确率达 76%
Agent Teams 多智能体协作：Claude Code 支持多个 Agent 并行工作、自主协调，已有企业案例展示 AI 管理 50 人团队和 6 个代码仓库
自适应思考机制：模型可根据任务复杂度自动调节推理深度，开发者可通过四级 effort 参数精确控制质量-速度-成本的平衡
价格不变策略：输入 $5/百万 Token、输出 $25/百万 Token 维持不变，能力翻倍但成本不增，加速企业从传统 SaaS 向 AI 原生工作流迁移

❓ 常见问题

Q: Claude Opus 4.6 和 Opus 4.5 相比，最大的提升在哪里？

A: 最大的提升在抽象推理能力（ARC AGI 2 从 37.6% 到 68.8%，接近翻倍）和信息检索能力（BrowseComp 从 67.8% 到 84.0%）。此外，百万 Token 上下文窗口和 Agent Teams 多智能体协作是全新功能。编程能力也有提升，但幅度相对较小。

Q: Opus 4.6 的价格是多少？比 GPT-5.2 贵还是便宜？

A: Opus 4.6 的 API 定价为输入 $5/百万 Token、输出 $25/百万 Token，与上一代 Opus 4.5 完全相同。Anthropic 还提供美国境内数据主权选项，但需额外支付 10% 溢价。对于企业用户，可通过 Max、Team 和 Enterprise 计划获取完整功能。

Q: Agent Teams 功能目前可以使用吗？

A: Agent Teams 目前作为 Claude Code 中的研究预览（Research Preview）提供，开发者可以在 Claude Code 中创建多个 Agent 并行协作。该功能特别适合代码审查、大型项目重构等读密集型任务。正式版本的发布时间尚未公布。

Q: Opus 4.6 在哪些方面不如竞争对手？

A: 在 Humanity's Last Exam（带工具）测试中，GPT-5.2 Pro 以 50.0% 领先 Opus 4.6 的 53.1%（不过 Opus 4.6 无工具版本 40.0% 领先 GPT-5.2 的 36.6%）。在视觉推理 MMMU Pro 上，Gemini 3 Pro（81.0%）和 GPT-5.2（80.4%）仍然领先。MCP Atlas 大规模工具调用也出现了小幅退步。

作者：王富贵 | 发布时间：2026年2月9日

参考来源：The New Stack · Vellum AI · IT Pro · UC Strategies