SWE-bench 2 月独立评测深度拆解：Opus 4.5 反超 4.6 登顶、中国模型占据 Top 10 半壁江山、OpenAI 最强编码模型缺席，AI 编码的真实格局比你想的复杂

📌 一句话总结：SWE-bench 2 月独立评测结果出炉——Claude Opus 4.5 反超 4.6 登顶，中国模型占据 Top 10 半壁江山，OpenAI 最强编码模型 GPT-5.3 Codex 缺席排行榜，AI 编码能力的真实格局比厂商自报的要复杂得多。

2026年2月23日 · 深度解读 · 阅读时间约 6 分钟

每次大模型发布，厂商都会在公告里列出一串 SWE-bench 分数。但这些分数是自报的——用自家优化的 prompt、自家搭建的 agent 框架跑出来的。你能信多少？

2 月 19 日，SWE-bench 官方更新了排行榜，用同一个 agent（mini-swe-bench agent，约 9000 行 Python）、同一个 system prompt 对当前所有主流模型做了统一评测。Simon Willison 第一时间做了分析，结果揭示了几个出人意料的真相。

为什么这次评测不一样

先说清楚 SWE-bench 是什么：它从 12 个真实的开源项目（Django、SymPy、scikit-learn 等）中提取了 2294 个真实的 GitHub issue，要求 AI 生成能通过测试的补丁。SWE-bench Verified 是其中经人工验证的 500 个子集（由 OpenAI 资助筛选）。

关键区别在于：这次评测用的是统一的 "Bash Only" 基准——所有模型使用完全相同的 agent 框架和 system prompt。这意味着：

不存在"我家 agent 更聪明"的变量
不存在"我的 prompt 优化得更好"的变量
纯粹比较模型本身的编码推理能力

"看到非厂商自报的基准测试结果总是好事。"
— Simon Willison，来源：simonwillison.net

Top 10 排行榜：三个意外

以下是 SWE-bench Verified（Bash Only）的 Top 10 结果：

排名	模型	来源	备注
1	Claude Opus 4.5	Anthropic	反超 4.6 约 1 个百分点
2	Gemini 3 Flash	Google	Flash 版本，非 Pro
3	MiniMax M2.5	中国 MiniMax	229B 参数，上周刚发布
4-6	GLM-5 / Kimi K2.5 / GPT-5.2	智谱/月之暗面/OpenAI	中国模型与 OpenAI 并列
7-10	DeepSeek V3.2 等	含多个中国模型	Top 10 中中国模型占半数

三个意外发现：

意外一：Opus 4.5 反超 Opus 4.6

Claude Opus 4.5 在统一评测中击败了更新的 Opus 4.6，虽然差距只有约 1 个百分点。这说明"更新 ≠ 更好"——至少在纯编码任务上，4.6 的改进可能更多体现在其他维度（如 agent 工具使用、多步推理），而非原始代码生成能力。

这也提醒我们：厂商发布新模型时宣传的"全面超越前代"，在独立评测中未必成立。

意外二：中国模型集体崛起

Top 10 中，中国模型占据了至少 4 个席位：MiniMax M2.5（第 3）、GLM-5、Kimi K2.5、DeepSeek V3.2。特别是 MiniMax M2.5——一个上周才发布的 229B 参数模型，直接冲到第 3 名。

这不是个别现象。在统一评测条件下（排除 agent 框架和 prompt 优化的差异），中国模型在编码能力上已经与美国顶级模型处于同一梯队。考虑到这些模型大多可以开源或以更低价格获取，对全球 AI 编码工具市场的格局影响深远。

意外三：OpenAI 最强编码模型缺席

OpenAI 在排行榜上的最高排名是 GPT-5.2（第 6 位左右）。但他们真正的编码旗舰——GPT-5.3 Codex——并未出现在评测中，可能因为它尚未在 OpenAI API 中开放。

根据第三方测试，GPT-5.3 Codex 在 Terminal-Bench 2.0 上达到 77.3%（从 GPT-5.2 的 64% 大幅提升），SWE-bench 自报约 80%。如果这些数字属实，它可能会改变排行榜格局。但在独立评测缺席的情况下，这些数字只能作为参考。

编码 AI 的真实格局：速度 vs 深度

综合 SWE-bench 和其他基准测试，2026 年 2 月的 AI 编码格局可以这样理解：

维度	领先者	关键优势
纯编码推理（SWE-bench）	Claude Opus 4.5/4.6	1M 上下文，跨文件理解
终端/Agent 执行	GPT-5.3 Codex	速度快 25%，Terminal-Bench 77.3%
性价比	Claude Sonnet 4.6	SWE-bench 79.6%，价格低 40%
开源/可控	GLM-5 / DeepSeek V3.2	开源或低价，编码能力进入第一梯队

一个有趣的趋势是：编码 AI 正在分化为"快速交互型"（Codex 路线）和"深度分析型"（Opus 路线）两个方向。前者优化响应速度和终端集成，后者优化上下文长度和多 Agent 协作。对开发者来说，最佳策略可能是两者兼用。

富贵点评

SWE-bench 独立评测最大的价值不在于谁第一谁第二，而在于它用统一条件撕掉了厂商自报数据的滤镜。当所有模型用同一个 agent、同一个 prompt 跑同一组任务时，你会发现：差距远没有厂商宣传的那么大。Top 10 之间的差距可能只有几个百分点，而这几个百分点在实际开发中几乎感知不到。

真正值得关注的是中国模型的集体崛起。MiniMax M2.5 上周才发布就冲到第 3，GLM-5、Kimi K2.5、DeepSeek V3.2 全部进入 Top 10。这意味着在编码这个 AI 最核心的应用场景之一，中美之间的技术差距已经基本消失。对于开发者来说，这是好消息——更多选择、更低价格、更激烈的竞争。

最后一个观察：Opus 4.5 反超 4.6 这件事，说明模型迭代不是线性进步。新版本可能在某些维度更强，但在其他维度反而退步。这就是为什么独立评测如此重要——它帮你看到厂商不会主动告诉你的东西。

📋 要点回顾

统一评测：SWE-bench 官方用同一 agent 和 prompt 对所有主流模型做了公平对比，排除了厂商自报数据的偏差
Opus 4.5 登顶：Claude Opus 4.5 反超更新的 4.6 约 1 个百分点，证明"更新 ≠ 更好"
中国模型崛起：MiniMax M2.5、GLM-5、Kimi K2.5、DeepSeek V3.2 占据 Top 10 半壁江山
OpenAI 缺席：GPT-5.3 Codex 未参与独立评测，自报 SWE-bench ~80% 无法验证
两条路线分化：编码 AI 分化为"快速交互型"（Codex）和"深度分析型"（Opus），开发者可两者兼用

❓ 常见问题

Q: SWE-bench 分数高就意味着编码能力强吗？

A: SWE-bench 测试的是从 GitHub issue 生成补丁的能力，主要覆盖 Python 生态的 12 个开源项目。它是目前最接近"真实编码"的基准之一，但不能代表所有编码场景——比如前端开发、系统编程、多语言项目等维度并未覆盖。

Q: 为什么 Opus 4.5 会比 4.6 分数更高？

A: 模型迭代不是所有维度的线性提升。Opus 4.6 可能在 agent 工具使用、多步推理、安全性等方面有改进，但在纯代码生成的特定基准上略有退步。差距只有约 1 个百分点，在实际使用中几乎不可感知。

Q: 开发者现在应该选哪个模型写代码？

A: 取决于场景。快速交互和终端操作选 GPT-5.3 Codex；大型代码库分析和安全审计选 Claude Opus 4.6（1M 上下文优势明显）；追求性价比选 Claude Sonnet 4.6（SWE-bench 79.6%，价格低 40%）；需要开源可控选 GLM-5 或 DeepSeek V3.2。

作者：王富贵 | 发布时间：2026年2月23日

参考来源：Simon Willison - SWE-bench February 2026 leaderboard update · NxCode - GPT-5.3 Codex vs Claude Opus 4.6 · Scale AI - SWE-Bench Pro Leaderboard