SWE-bench 2 月独立评测深度拆解:Opus 4.5 反超 4.6 登顶、中国模型占据 Top 10 半壁江山、OpenAI 最强编码模型缺席,AI 编码的真实格局比你想的复杂

📌 一句话总结:SWE-bench 2 月独立评测结果出炉——Claude Opus 4.5 反超 4.6 登顶,中国模型占据 Top 10 半壁江山,OpenAI 最强编码模型 GPT-5.3 Codex 缺席排行榜,AI 编码能力的真实格局比厂商自报的要复杂得多。

2026年2月23日 · 深度解读 · 阅读时间约 6 分钟

每次大模型发布,厂商都会在公告里列出一串 SWE-bench 分数。但这些分数是自报的——用自家优化的 prompt、自家搭建的 agent 框架跑出来的。你能信多少?

2 月 19 日,SWE-bench 官方更新了排行榜,用同一个 agent(mini-swe-bench agent,约 9000 行 Python)、同一个 system prompt 对当前所有主流模型做了统一评测。Simon Willison 第一时间做了分析,结果揭示了几个出人意料的真相。

为什么这次评测不一样

先说清楚 SWE-bench 是什么:它从 12 个真实的开源项目(Django、SymPy、scikit-learn 等)中提取了 2294 个真实的 GitHub issue,要求 AI 生成能通过测试的补丁。SWE-bench Verified 是其中经人工验证的 500 个子集(由 OpenAI 资助筛选)。

关键区别在于:这次评测用的是统一的 "Bash Only" 基准——所有模型使用完全相同的 agent 框架和 system prompt。这意味着:

  • 不存在"我家 agent 更聪明"的变量
  • 不存在"我的 prompt 优化得更好"的变量
  • 纯粹比较模型本身的编码推理能力
"看到非厂商自报的基准测试结果总是好事。"
— Simon Willison,来源:simonwillison.net

Top 10 排行榜:三个意外

以下是 SWE-bench Verified(Bash Only)的 Top 10 结果:

排名 模型 来源 备注
1 Claude Opus 4.5 Anthropic 反超 4.6 约 1 个百分点
2 Gemini 3 Flash Google Flash 版本,非 Pro
3 MiniMax M2.5 中国 MiniMax 229B 参数,上周刚发布
4-6 GLM-5 / Kimi K2.5 / GPT-5.2 智谱/月之暗面/OpenAI 中国模型与 OpenAI 并列
7-10 DeepSeek V3.2 等 含多个中国模型 Top 10 中中国模型占半数

三个意外发现:

意外一:Opus 4.5 反超 Opus 4.6

Claude Opus 4.5 在统一评测中击败了更新的 Opus 4.6,虽然差距只有约 1 个百分点。这说明"更新 ≠ 更好"——至少在纯编码任务上,4.6 的改进可能更多体现在其他维度(如 agent 工具使用、多步推理),而非原始代码生成能力。

这也提醒我们:厂商发布新模型时宣传的"全面超越前代",在独立评测中未必成立。

意外二:中国模型集体崛起

Top 10 中,中国模型占据了至少 4 个席位:MiniMax M2.5(第 3)、GLM-5、Kimi K2.5、DeepSeek V3.2。特别是 MiniMax M2.5——一个上周才发布的 229B 参数模型,直接冲到第 3 名。

这不是个别现象。在统一评测条件下(排除 agent 框架和 prompt 优化的差异),中国模型在编码能力上已经与美国顶级模型处于同一梯队。考虑到这些模型大多可以开源或以更低价格获取,对全球 AI 编码工具市场的格局影响深远。

意外三:OpenAI 最强编码模型缺席

OpenAI 在排行榜上的最高排名是 GPT-5.2(第 6 位左右)。但他们真正的编码旗舰——GPT-5.3 Codex——并未出现在评测中,可能因为它尚未在 OpenAI API 中开放。

根据第三方测试,GPT-5.3 Codex 在 Terminal-Bench 2.0 上达到 77.3%(从 GPT-5.2 的 64% 大幅提升),SWE-bench 自报约 80%。如果这些数字属实,它可能会改变排行榜格局。但在独立评测缺席的情况下,这些数字只能作为参考。

编码 AI 的真实格局:速度 vs 深度

综合 SWE-bench 和其他基准测试,2026 年 2 月的 AI 编码格局可以这样理解:

维度 领先者 关键优势
纯编码推理(SWE-bench) Claude Opus 4.5/4.6 1M 上下文,跨文件理解
终端/Agent 执行 GPT-5.3 Codex 速度快 25%,Terminal-Bench 77.3%
性价比 Claude Sonnet 4.6 SWE-bench 79.6%,价格低 40%
开源/可控 GLM-5 / DeepSeek V3.2 开源或低价,编码能力进入第一梯队

一个有趣的趋势是:编码 AI 正在分化为"快速交互型"(Codex 路线)和"深度分析型"(Opus 路线)两个方向。前者优化响应速度和终端集成,后者优化上下文长度和多 Agent 协作。对开发者来说,最佳策略可能是两者兼用。

富贵点评

SWE-bench 独立评测最大的价值不在于谁第一谁第二,而在于它用统一条件撕掉了厂商自报数据的滤镜。当所有模型用同一个 agent、同一个 prompt 跑同一组任务时,你会发现:差距远没有厂商宣传的那么大。Top 10 之间的差距可能只有几个百分点,而这几个百分点在实际开发中几乎感知不到。

真正值得关注的是中国模型的集体崛起。MiniMax M2.5 上周才发布就冲到第 3,GLM-5、Kimi K2.5、DeepSeek V3.2 全部进入 Top 10。这意味着在编码这个 AI 最核心的应用场景之一,中美之间的技术差距已经基本消失。对于开发者来说,这是好消息——更多选择、更低价格、更激烈的竞争。

最后一个观察:Opus 4.5 反超 4.6 这件事,说明模型迭代不是线性进步。新版本可能在某些维度更强,但在其他维度反而退步。这就是为什么独立评测如此重要——它帮你看到厂商不会主动告诉你的东西。

📋 要点回顾

  • 统一评测:SWE-bench 官方用同一 agent 和 prompt 对所有主流模型做了公平对比,排除了厂商自报数据的偏差
  • Opus 4.5 登顶:Claude Opus 4.5 反超更新的 4.6 约 1 个百分点,证明"更新 ≠ 更好"
  • 中国模型崛起:MiniMax M2.5、GLM-5、Kimi K2.5、DeepSeek V3.2 占据 Top 10 半壁江山
  • OpenAI 缺席:GPT-5.3 Codex 未参与独立评测,自报 SWE-bench ~80% 无法验证
  • 两条路线分化:编码 AI 分化为"快速交互型"(Codex)和"深度分析型"(Opus),开发者可两者兼用

❓ 常见问题

Q: SWE-bench 分数高就意味着编码能力强吗?

A: SWE-bench 测试的是从 GitHub issue 生成补丁的能力,主要覆盖 Python 生态的 12 个开源项目。它是目前最接近"真实编码"的基准之一,但不能代表所有编码场景——比如前端开发、系统编程、多语言项目等维度并未覆盖。

Q: 为什么 Opus 4.5 会比 4.6 分数更高?

A: 模型迭代不是所有维度的线性提升。Opus 4.6 可能在 agent 工具使用、多步推理、安全性等方面有改进,但在纯代码生成的特定基准上略有退步。差距只有约 1 个百分点,在实际使用中几乎不可感知。

Q: 开发者现在应该选哪个模型写代码?

A: 取决于场景。快速交互和终端操作选 GPT-5.3 Codex;大型代码库分析和安全审计选 Claude Opus 4.6(1M 上下文优势明显);追求性价比选 Claude Sonnet 4.6(SWE-bench 79.6%,价格低 40%);需要开源可控选 GLM-5 或 DeepSeek V3.2。