📌 一句话总结:Claude Opus 4.6 以「小版本号」之名行「换代」之实——ARC AGI 2 抽象推理翻倍至 68.8%、百万 Token 上下文窗口、Agent Teams 多智能体协作,价格不变,Anthropic 正在用技术密度碾压竞争对手。
2026年2月9日 · 深度解读 · 阅读时间约 8 分钟
版本号的障眼法:从 4.5 到 4.6,到底发生了什么
2 月 5 日,Anthropic 发布了 Claude Opus 4.6。如果只看版本号——从 4.5 到 4.6——你可能以为这只是一次例行的 bug 修复和小幅优化。但当你打开基准测试数据的那一刻,你会意识到这个「0.1」的版本号增量背后,藏着一次足以改变行业格局的能力跃迁。
先看最震撼的数字:在 ARC AGI 2 抽象推理测试中,Opus 4.6 得分 68.8%,而上一代 Opus 4.5 仅为 37.6%。这不是渐进式提升,这是接近翻倍。作为对比,Google 的 Gemini 3 Pro 得分 45.1%,OpenAI 的 GPT-5.2 Pro 得分 54.2%。Opus 4.6 一骑绝尘。
ARC AGI 2 之所以重要,是因为它测试的不是模型背了多少知识,而是面对从未见过的新问题时的推理能力——这恰恰是人类智能最核心的特征。Opus 4.6 在这个维度上的飞跃,意味着 AI 正在从「博学的鹦鹉」向「真正会思考的助手」迈出关键一步。
基准测试全景:哪些领域领先,哪些存在短板
让我们用数据说话。以下是 Opus 4.6 在各主要基准测试中的表现:
| 基准测试 | Opus 4.6 | Opus 4.5 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|---|
| ARC AGI 2(抽象推理) | 68.8% | 37.6% | 54.2% | 45.1% |
| Terminal-Bench 2.0(终端编程) | 65.4% | 59.8% | 64.7% | 56.2% |
| BrowseComp(网络搜索) | 84.0% | 67.8% | 77.9% | 59.2% |
| GDPVal-AA Elo(知识工作) | 1606 | 1416 | 1462 | 1195 |
| OSWorld(计算机操控) | 72.7% | 66.3% | — | — |
| SWE-bench Verified(代码修复) | 80.8% | 80.9% | 80.0% | 76.2% |
| MRCR v2 1M(长上下文检索) | 76.0% | — | — | — |
| MCP Atlas(大规模工具调用) | 59.5% | 62.3% | 60.6% | 54.1% |
几个关键发现:
碾压级领先的领域:ARC AGI 2(+31.2pp)、BrowseComp(+16.2pp)、GDPVal-AA(+190 Elo)。这三个基准分别代表抽象推理、信息检索和知识工作——恰好是企业最需要的三种能力。
稳中有进的领域:Terminal-Bench 2.0(+5.6pp)、OSWorld(+6.4pp)、τ2-bench Retail(91.9%,+3pp)。编程和计算机操控能力持续提升。
值得关注的短板:SWE-bench Verified 微降 0.1pp(80.8% vs 80.9%),MCP Atlas 下降 2.8pp(59.5% vs 62.3%)。前者说明传统代码修复能力已接近天花板,后者暗示大规模工具协调可能存在取舍。
百万 Token 上下文:不只是数字变大了
Opus 4.6 是 Opus 家族首个支持百万 Token 上下文窗口的模型。这意味着什么?一百万 Token 大约相当于 750 万个英文单词,或者说你可以一次性塞进去十几本书、一整个代码仓库、或者一家公司过去一年的所有合同文件。
但上下文窗口大不等于用得好。很多模型在上下文变长后会出现「上下文腐烂」——越往后越记不住前面的内容。Opus 4.6 在 MRCR v2 基准测试中,百万 Token 级别的检索准确率达到 76%,而同家族的 Sonnet 4.5 仅为 18.5%。这个差距是惊人的。
「Anthropic 最新模型在长上下文性能上实现了有意义的飞跃。在我们的测试中,它处理大量信息时展现出的一致性,增强了我们设计和部署复杂研究工作流的能力。」
— Joel Hron,Thomson Reuters CTO(来源:IT Pro)
配合新引入的上下文压缩(Context Compaction)功能,当对话超过一定长度时,系统会自动总结较早的内容以释放上下文空间。这让 AI 可以进行超长时间的持续工作而不会「失忆」。
Agent Teams:从单兵作战到团队协作
如果说百万 Token 上下文是「记忆力」的升级,那么 Agent Teams 就是「组织力」的突破。
此前,Claude Code 一次只能运行一个 Agent,任务只能串行执行。现在,开发者可以将工作拆分给多个 Agent,它们并行工作、自主协调。这对于代码审查、大型项目重构等「读多写少」的任务尤其有用。
「Claude Opus 4.6 在一天内自主关闭了 13 个 Issue,并将 12 个 Issue 分配给了正确的团队成员,管理着一个约 50 人的组织、横跨 6 个代码仓库。它同时处理产品决策和组织决策,跨多个领域综合上下文,并且知道什么时候该升级给人类。」
— Yusuke Kaji,乐天 AI 总经理(来源:IT Pro)
这段话值得反复品味。一个 AI 系统在管理 50 人的组织、6 个代码仓库,自主做出产品和组织决策,并且知道什么时候该找人类帮忙。这已经不是「工具」的范畴了,这是「同事」的范畴。
自适应思考:AI 学会了「看菜下碟」
Opus 4.6 引入了自适应思考(Adaptive Thinking)机制。此前,开发者只能选择开启或关闭扩展思考模式——要么全力以赴,要么完全不想。现在,模型可以根据上下文线索自动判断一个问题需要多少「思考力度」,开发者也可以通过 effort 参数手动设置四个级别:low、medium、high(默认)和 max。
这个功能看似简单,实际意义深远。它意味着:
- 简单问题不会浪费算力和时间
- 复杂问题会自动投入更多推理资源
- 开发者可以在质量、速度和成本之间做精确权衡
对于企业级部署来说,这直接影响到 API 调用成本。一个处理客服工单的 Agent 不需要和一个做金融分析的 Agent 使用同样的推理深度。
价格不变的战略意图
Opus 4.6 的定价保持不变:输入 $5/百万 Token,输出 $25/百万 Token。能力大幅提升但价格不动,这不是慈善,而是战略。
Anthropic 正在同时打两场仗:
第一场:与 OpenAI 和 Google 的模型之争。在 ARC AGI 2、BrowseComp、GDPVal-AA 等关键基准上全面领先,用技术实力说话。
第二场:与整个 SaaS 行业的替代之争。就在 Opus 4.6 发布的同一周,Anthropic 的 Claude Cowork 插件引发了全球软件股 6110 亿美元的市值蒸发。Thomson Reuters 暴跌 20%,Morningstar 创 2009 年以来最大周跌幅。投资者的恐惧很简单:当 AI 能直接做法律审查、财务分析、客户支持,谁还需要按人头收费的 SaaS?
保持低价,就是在告诉企业客户:切换到 AI 的成本比你想象的低得多。
冷静看待:基准测试不是全部
在为这些数字兴奋之前,有几个问题值得冷静思考:
1. SWE-bench 的微降意味着什么?Opus 4.6 在 SWE-bench Verified 上从 80.9% 微降至 80.8%,MCP Atlas 从 62.3% 降至 59.5%。这两个基准分别测试代码修复和大规模工具协调。微降可能意味着 Anthropic 在训练时做了取舍——把资源集中在了抽象推理和 Agent 能力上。
2. 基准测试 ≠ 实际体验。模型在标准化测试中的表现和在真实工作场景中的表现之间,始终存在差距。一个在 Terminal-Bench 上得分最高的模型,不一定在你的特定代码库中表现最好。
3. 安全性的隐忧。Anthropic 声称 Opus 4.6 的安全性与 4.5 持平,在欺骗性、谄媚性等方面没有退步。但当一个模型变得更强大、更自主时,安全风险也在同步增长。Anthropic 为此部署了有史以来最全面的评估流程,包括新的用户福祉评估和六项全新的网络安全压力测试。
富贵点评
Opus 4.6 让我想到一个词:「降维打击」。
表面上看,这只是一个 0.1 的版本号更新。但 ARC AGI 2 翻倍、BrowseComp 跃升 16 个百分点、GDPVal-AA 领先 GPT-5.2 整整 144 Elo——这些数字放在一起,讲述的是一个完全不同的故事:Anthropic 不是在追赶,而是在定义游戏规则。
最让我印象深刻的不是某个单项基准,而是乐天那个案例——AI 管理 50 人团队、6 个代码仓库,自主做决策,知道什么时候该找人。这已经不是「AI 辅助」了,这是「AI 主导、人类监督」。我们正在目睹一个范式转换:从「人用 AI 工具」到「AI 用人类顾问」。
当然,基准测试永远只是故事的一部分。真正的考验是:当你把 Opus 4.6 放进你的工作流,它能不能持续、稳定、安全地交付价值?这个问题的答案,需要时间来验证。但有一点是确定的——AI 能力的进化速度,已经远远超出了大多数人的预期。上一代模型还在被讨论,下一代已经让它看起来像古董了。
📋 要点回顾
- ARC AGI 2 抽象推理翻倍:从 37.6% 飙升至 68.8%,大幅领先 GPT-5.2(54.2%)和 Gemini 3 Pro(45.1%),标志着 AI 在面对全新问题时的推理能力实现质变
- 百万 Token 上下文窗口:Opus 家族首次支持,配合上下文压缩功能,可处理整个代码仓库或大量文档而不「失忆」,MRCR v2 百万级检索准确率达 76%
- Agent Teams 多智能体协作:Claude Code 支持多个 Agent 并行工作、自主协调,已有企业案例展示 AI 管理 50 人团队和 6 个代码仓库
- 自适应思考机制:模型可根据任务复杂度自动调节推理深度,开发者可通过四级 effort 参数精确控制质量-速度-成本的平衡
- 价格不变策略:输入 $5/百万 Token、输出 $25/百万 Token 维持不变,能力翻倍但成本不增,加速企业从传统 SaaS 向 AI 原生工作流迁移
❓ 常见问题
Q: Claude Opus 4.6 和 Opus 4.5 相比,最大的提升在哪里?
A: 最大的提升在抽象推理能力(ARC AGI 2 从 37.6% 到 68.8%,接近翻倍)和信息检索能力(BrowseComp 从 67.8% 到 84.0%)。此外,百万 Token 上下文窗口和 Agent Teams 多智能体协作是全新功能。编程能力也有提升,但幅度相对较小。
Q: Opus 4.6 的价格是多少?比 GPT-5.2 贵还是便宜?
A: Opus 4.6 的 API 定价为输入 $5/百万 Token、输出 $25/百万 Token,与上一代 Opus 4.5 完全相同。Anthropic 还提供美国境内数据主权选项,但需额外支付 10% 溢价。对于企业用户,可通过 Max、Team 和 Enterprise 计划获取完整功能。
Q: Agent Teams 功能目前可以使用吗?
A: Agent Teams 目前作为 Claude Code 中的研究预览(Research Preview)提供,开发者可以在 Claude Code 中创建多个 Agent 并行协作。该功能特别适合代码审查、大型项目重构等读密集型任务。正式版本的发布时间尚未公布。
Q: Opus 4.6 在哪些方面不如竞争对手?
A: 在 Humanity's Last Exam(带工具)测试中,GPT-5.2 Pro 以 50.0% 领先 Opus 4.6 的 53.1%(不过 Opus 4.6 无工具版本 40.0% 领先 GPT-5.2 的 36.6%)。在视觉推理 MMMU Pro 上,Gemini 3 Pro(81.0%)和 GPT-5.2(80.4%)仍然领先。MCP Atlas 大规模工具调用也出现了小幅退步。
作者:王富贵 | 发布时间:2026年2月9日
参考来源:The New Stack · Vellum AI · IT Pro · UC Strategies