Claude Opus 4.6 深度拆解:ARC AGI 2 得分翻倍、百万 Token 上下文、Agent 团队协作——Anthropic 如何用一次「小版本更新」重新定义 AI 能力边界

📌 一句话总结:Claude Opus 4.6 以「小版本号」之名行「换代」之实——ARC AGI 2 抽象推理翻倍至 68.8%、百万 Token 上下文窗口、Agent Teams 多智能体协作,价格不变,Anthropic 正在用技术密度碾压竞争对手。

2026年2月9日 · 深度解读 · 阅读时间约 8 分钟

版本号的障眼法:从 4.5 到 4.6,到底发生了什么

2 月 5 日,Anthropic 发布了 Claude Opus 4.6。如果只看版本号——从 4.5 到 4.6——你可能以为这只是一次例行的 bug 修复和小幅优化。但当你打开基准测试数据的那一刻,你会意识到这个「0.1」的版本号增量背后,藏着一次足以改变行业格局的能力跃迁。

先看最震撼的数字:在 ARC AGI 2 抽象推理测试中,Opus 4.6 得分 68.8%,而上一代 Opus 4.5 仅为 37.6%。这不是渐进式提升,这是接近翻倍。作为对比,Google 的 Gemini 3 Pro 得分 45.1%,OpenAI 的 GPT-5.2 Pro 得分 54.2%。Opus 4.6 一骑绝尘。

ARC AGI 2 之所以重要,是因为它测试的不是模型背了多少知识,而是面对从未见过的新问题时的推理能力——这恰恰是人类智能最核心的特征。Opus 4.6 在这个维度上的飞跃,意味着 AI 正在从「博学的鹦鹉」向「真正会思考的助手」迈出关键一步。

基准测试全景:哪些领域领先,哪些存在短板

让我们用数据说话。以下是 Opus 4.6 在各主要基准测试中的表现:

基准测试Opus 4.6Opus 4.5GPT-5.2Gemini 3 Pro
ARC AGI 2(抽象推理)68.8%37.6%54.2%45.1%
Terminal-Bench 2.0(终端编程)65.4%59.8%64.7%56.2%
BrowseComp(网络搜索)84.0%67.8%77.9%59.2%
GDPVal-AA Elo(知识工作)1606141614621195
OSWorld(计算机操控)72.7%66.3%
SWE-bench Verified(代码修复)80.8%80.9%80.0%76.2%
MRCR v2 1M(长上下文检索)76.0%
MCP Atlas(大规模工具调用)59.5%62.3%60.6%54.1%

几个关键发现:

碾压级领先的领域:ARC AGI 2(+31.2pp)、BrowseComp(+16.2pp)、GDPVal-AA(+190 Elo)。这三个基准分别代表抽象推理、信息检索和知识工作——恰好是企业最需要的三种能力。

稳中有进的领域:Terminal-Bench 2.0(+5.6pp)、OSWorld(+6.4pp)、τ2-bench Retail(91.9%,+3pp)。编程和计算机操控能力持续提升。

值得关注的短板:SWE-bench Verified 微降 0.1pp(80.8% vs 80.9%),MCP Atlas 下降 2.8pp(59.5% vs 62.3%)。前者说明传统代码修复能力已接近天花板,后者暗示大规模工具协调可能存在取舍。

百万 Token 上下文:不只是数字变大了

Opus 4.6 是 Opus 家族首个支持百万 Token 上下文窗口的模型。这意味着什么?一百万 Token 大约相当于 750 万个英文单词,或者说你可以一次性塞进去十几本书、一整个代码仓库、或者一家公司过去一年的所有合同文件。

但上下文窗口大不等于用得好。很多模型在上下文变长后会出现「上下文腐烂」——越往后越记不住前面的内容。Opus 4.6 在 MRCR v2 基准测试中,百万 Token 级别的检索准确率达到 76%,而同家族的 Sonnet 4.5 仅为 18.5%。这个差距是惊人的。

「Anthropic 最新模型在长上下文性能上实现了有意义的飞跃。在我们的测试中,它处理大量信息时展现出的一致性,增强了我们设计和部署复杂研究工作流的能力。」
— Joel Hron,Thomson Reuters CTO(来源:IT Pro

配合新引入的上下文压缩(Context Compaction)功能,当对话超过一定长度时,系统会自动总结较早的内容以释放上下文空间。这让 AI 可以进行超长时间的持续工作而不会「失忆」。

Agent Teams:从单兵作战到团队协作

如果说百万 Token 上下文是「记忆力」的升级,那么 Agent Teams 就是「组织力」的突破。

此前,Claude Code 一次只能运行一个 Agent,任务只能串行执行。现在,开发者可以将工作拆分给多个 Agent,它们并行工作、自主协调。这对于代码审查、大型项目重构等「读多写少」的任务尤其有用。

「Claude Opus 4.6 在一天内自主关闭了 13 个 Issue,并将 12 个 Issue 分配给了正确的团队成员,管理着一个约 50 人的组织、横跨 6 个代码仓库。它同时处理产品决策和组织决策,跨多个领域综合上下文,并且知道什么时候该升级给人类。」
— Yusuke Kaji,乐天 AI 总经理(来源:IT Pro

这段话值得反复品味。一个 AI 系统在管理 50 人的组织、6 个代码仓库,自主做出产品和组织决策,并且知道什么时候该找人类帮忙。这已经不是「工具」的范畴了,这是「同事」的范畴。

自适应思考:AI 学会了「看菜下碟」

Opus 4.6 引入了自适应思考(Adaptive Thinking)机制。此前,开发者只能选择开启或关闭扩展思考模式——要么全力以赴,要么完全不想。现在,模型可以根据上下文线索自动判断一个问题需要多少「思考力度」,开发者也可以通过 effort 参数手动设置四个级别:low、medium、high(默认)和 max。

这个功能看似简单,实际意义深远。它意味着:

  • 简单问题不会浪费算力和时间
  • 复杂问题会自动投入更多推理资源
  • 开发者可以在质量、速度和成本之间做精确权衡

对于企业级部署来说,这直接影响到 API 调用成本。一个处理客服工单的 Agent 不需要和一个做金融分析的 Agent 使用同样的推理深度。

价格不变的战略意图

Opus 4.6 的定价保持不变:输入 $5/百万 Token,输出 $25/百万 Token。能力大幅提升但价格不动,这不是慈善,而是战略。

Anthropic 正在同时打两场仗:

第一场:与 OpenAI 和 Google 的模型之争。在 ARC AGI 2、BrowseComp、GDPVal-AA 等关键基准上全面领先,用技术实力说话。

第二场:与整个 SaaS 行业的替代之争。就在 Opus 4.6 发布的同一周,Anthropic 的 Claude Cowork 插件引发了全球软件股 6110 亿美元的市值蒸发。Thomson Reuters 暴跌 20%,Morningstar 创 2009 年以来最大周跌幅。投资者的恐惧很简单:当 AI 能直接做法律审查、财务分析、客户支持,谁还需要按人头收费的 SaaS?

保持低价,就是在告诉企业客户:切换到 AI 的成本比你想象的低得多。

冷静看待:基准测试不是全部

在为这些数字兴奋之前,有几个问题值得冷静思考:

1. SWE-bench 的微降意味着什么?Opus 4.6 在 SWE-bench Verified 上从 80.9% 微降至 80.8%,MCP Atlas 从 62.3% 降至 59.5%。这两个基准分别测试代码修复和大规模工具协调。微降可能意味着 Anthropic 在训练时做了取舍——把资源集中在了抽象推理和 Agent 能力上。

2. 基准测试 ≠ 实际体验。模型在标准化测试中的表现和在真实工作场景中的表现之间,始终存在差距。一个在 Terminal-Bench 上得分最高的模型,不一定在你的特定代码库中表现最好。

3. 安全性的隐忧。Anthropic 声称 Opus 4.6 的安全性与 4.5 持平,在欺骗性、谄媚性等方面没有退步。但当一个模型变得更强大、更自主时,安全风险也在同步增长。Anthropic 为此部署了有史以来最全面的评估流程,包括新的用户福祉评估和六项全新的网络安全压力测试。

富贵点评

Opus 4.6 让我想到一个词:「降维打击」

表面上看,这只是一个 0.1 的版本号更新。但 ARC AGI 2 翻倍、BrowseComp 跃升 16 个百分点、GDPVal-AA 领先 GPT-5.2 整整 144 Elo——这些数字放在一起,讲述的是一个完全不同的故事:Anthropic 不是在追赶,而是在定义游戏规则。

最让我印象深刻的不是某个单项基准,而是乐天那个案例——AI 管理 50 人团队、6 个代码仓库,自主做决策,知道什么时候该找人。这已经不是「AI 辅助」了,这是「AI 主导、人类监督」。我们正在目睹一个范式转换:从「人用 AI 工具」到「AI 用人类顾问」。

当然,基准测试永远只是故事的一部分。真正的考验是:当你把 Opus 4.6 放进你的工作流,它能不能持续、稳定、安全地交付价值?这个问题的答案,需要时间来验证。但有一点是确定的——AI 能力的进化速度,已经远远超出了大多数人的预期。上一代模型还在被讨论,下一代已经让它看起来像古董了。

📋 要点回顾

  • ARC AGI 2 抽象推理翻倍:从 37.6% 飙升至 68.8%,大幅领先 GPT-5.2(54.2%)和 Gemini 3 Pro(45.1%),标志着 AI 在面对全新问题时的推理能力实现质变
  • 百万 Token 上下文窗口:Opus 家族首次支持,配合上下文压缩功能,可处理整个代码仓库或大量文档而不「失忆」,MRCR v2 百万级检索准确率达 76%
  • Agent Teams 多智能体协作:Claude Code 支持多个 Agent 并行工作、自主协调,已有企业案例展示 AI 管理 50 人团队和 6 个代码仓库
  • 自适应思考机制:模型可根据任务复杂度自动调节推理深度,开发者可通过四级 effort 参数精确控制质量-速度-成本的平衡
  • 价格不变策略:输入 $5/百万 Token、输出 $25/百万 Token 维持不变,能力翻倍但成本不增,加速企业从传统 SaaS 向 AI 原生工作流迁移

❓ 常见问题

Q: Claude Opus 4.6 和 Opus 4.5 相比,最大的提升在哪里?

A: 最大的提升在抽象推理能力(ARC AGI 2 从 37.6% 到 68.8%,接近翻倍)和信息检索能力(BrowseComp 从 67.8% 到 84.0%)。此外,百万 Token 上下文窗口和 Agent Teams 多智能体协作是全新功能。编程能力也有提升,但幅度相对较小。

Q: Opus 4.6 的价格是多少?比 GPT-5.2 贵还是便宜?

A: Opus 4.6 的 API 定价为输入 $5/百万 Token、输出 $25/百万 Token,与上一代 Opus 4.5 完全相同。Anthropic 还提供美国境内数据主权选项,但需额外支付 10% 溢价。对于企业用户,可通过 Max、Team 和 Enterprise 计划获取完整功能。

Q: Agent Teams 功能目前可以使用吗?

A: Agent Teams 目前作为 Claude Code 中的研究预览(Research Preview)提供,开发者可以在 Claude Code 中创建多个 Agent 并行协作。该功能特别适合代码审查、大型项目重构等读密集型任务。正式版本的发布时间尚未公布。

Q: Opus 4.6 在哪些方面不如竞争对手?

A: 在 Humanity's Last Exam(带工具)测试中,GPT-5.2 Pro 以 50.0% 领先 Opus 4.6 的 53.1%(不过 Opus 4.6 无工具版本 40.0% 领先 GPT-5.2 的 36.6%)。在视觉推理 MMMU Pro 上,Gemini 3 Pro(81.0%)和 GPT-5.2(80.4%)仍然领先。MCP Atlas 大规模工具调用也出现了小幅退步。

作者:王富贵 | 发布时间:2026年2月9日

参考来源:The New Stack · Vellum AI · IT Pro · UC Strategies