📌 一句话总结:SWE-bench 2 月独立评测结果出炉——Claude Opus 4.5 反超 4.6 登顶,中国模型占据 Top 10 半壁江山,OpenAI 最强编码模型 GPT-5.3 Codex 缺席排行榜,AI 编码能力的真实格局比厂商自报的要复杂得多。
2026年2月23日 · 深度解读 · 阅读时间约 6 分钟
每次大模型发布,厂商都会在公告里列出一串 SWE-bench 分数。但这些分数是自报的——用自家优化的 prompt、自家搭建的 agent 框架跑出来的。你能信多少?
2 月 19 日,SWE-bench 官方更新了排行榜,用同一个 agent(mini-swe-bench agent,约 9000 行 Python)、同一个 system prompt 对当前所有主流模型做了统一评测。Simon Willison 第一时间做了分析,结果揭示了几个出人意料的真相。
为什么这次评测不一样
先说清楚 SWE-bench 是什么:它从 12 个真实的开源项目(Django、SymPy、scikit-learn 等)中提取了 2294 个真实的 GitHub issue,要求 AI 生成能通过测试的补丁。SWE-bench Verified 是其中经人工验证的 500 个子集(由 OpenAI 资助筛选)。
关键区别在于:这次评测用的是统一的 "Bash Only" 基准——所有模型使用完全相同的 agent 框架和 system prompt。这意味着:
- 不存在"我家 agent 更聪明"的变量
- 不存在"我的 prompt 优化得更好"的变量
- 纯粹比较模型本身的编码推理能力
"看到非厂商自报的基准测试结果总是好事。"
— Simon Willison,来源:simonwillison.net
Top 10 排行榜:三个意外
以下是 SWE-bench Verified(Bash Only)的 Top 10 结果:
| 排名 | 模型 | 来源 | 备注 |
|---|---|---|---|
| 1 | Claude Opus 4.5 | Anthropic | 反超 4.6 约 1 个百分点 |
| 2 | Gemini 3 Flash | Flash 版本,非 Pro | |
| 3 | MiniMax M2.5 | 中国 MiniMax | 229B 参数,上周刚发布 |
| 4-6 | GLM-5 / Kimi K2.5 / GPT-5.2 | 智谱/月之暗面/OpenAI | 中国模型与 OpenAI 并列 |
| 7-10 | DeepSeek V3.2 等 | 含多个中国模型 | Top 10 中中国模型占半数 |
三个意外发现:
意外一:Opus 4.5 反超 Opus 4.6
Claude Opus 4.5 在统一评测中击败了更新的 Opus 4.6,虽然差距只有约 1 个百分点。这说明"更新 ≠ 更好"——至少在纯编码任务上,4.6 的改进可能更多体现在其他维度(如 agent 工具使用、多步推理),而非原始代码生成能力。
这也提醒我们:厂商发布新模型时宣传的"全面超越前代",在独立评测中未必成立。
意外二:中国模型集体崛起
Top 10 中,中国模型占据了至少 4 个席位:MiniMax M2.5(第 3)、GLM-5、Kimi K2.5、DeepSeek V3.2。特别是 MiniMax M2.5——一个上周才发布的 229B 参数模型,直接冲到第 3 名。
这不是个别现象。在统一评测条件下(排除 agent 框架和 prompt 优化的差异),中国模型在编码能力上已经与美国顶级模型处于同一梯队。考虑到这些模型大多可以开源或以更低价格获取,对全球 AI 编码工具市场的格局影响深远。
意外三:OpenAI 最强编码模型缺席
OpenAI 在排行榜上的最高排名是 GPT-5.2(第 6 位左右)。但他们真正的编码旗舰——GPT-5.3 Codex——并未出现在评测中,可能因为它尚未在 OpenAI API 中开放。
根据第三方测试,GPT-5.3 Codex 在 Terminal-Bench 2.0 上达到 77.3%(从 GPT-5.2 的 64% 大幅提升),SWE-bench 自报约 80%。如果这些数字属实,它可能会改变排行榜格局。但在独立评测缺席的情况下,这些数字只能作为参考。
编码 AI 的真实格局:速度 vs 深度
综合 SWE-bench 和其他基准测试,2026 年 2 月的 AI 编码格局可以这样理解:
| 维度 | 领先者 | 关键优势 |
|---|---|---|
| 纯编码推理(SWE-bench) | Claude Opus 4.5/4.6 | 1M 上下文,跨文件理解 |
| 终端/Agent 执行 | GPT-5.3 Codex | 速度快 25%,Terminal-Bench 77.3% |
| 性价比 | Claude Sonnet 4.6 | SWE-bench 79.6%,价格低 40% |
| 开源/可控 | GLM-5 / DeepSeek V3.2 | 开源或低价,编码能力进入第一梯队 |
一个有趣的趋势是:编码 AI 正在分化为"快速交互型"(Codex 路线)和"深度分析型"(Opus 路线)两个方向。前者优化响应速度和终端集成,后者优化上下文长度和多 Agent 协作。对开发者来说,最佳策略可能是两者兼用。
富贵点评
SWE-bench 独立评测最大的价值不在于谁第一谁第二,而在于它用统一条件撕掉了厂商自报数据的滤镜。当所有模型用同一个 agent、同一个 prompt 跑同一组任务时,你会发现:差距远没有厂商宣传的那么大。Top 10 之间的差距可能只有几个百分点,而这几个百分点在实际开发中几乎感知不到。
真正值得关注的是中国模型的集体崛起。MiniMax M2.5 上周才发布就冲到第 3,GLM-5、Kimi K2.5、DeepSeek V3.2 全部进入 Top 10。这意味着在编码这个 AI 最核心的应用场景之一,中美之间的技术差距已经基本消失。对于开发者来说,这是好消息——更多选择、更低价格、更激烈的竞争。
最后一个观察:Opus 4.5 反超 4.6 这件事,说明模型迭代不是线性进步。新版本可能在某些维度更强,但在其他维度反而退步。这就是为什么独立评测如此重要——它帮你看到厂商不会主动告诉你的东西。
📋 要点回顾
- 统一评测:SWE-bench 官方用同一 agent 和 prompt 对所有主流模型做了公平对比,排除了厂商自报数据的偏差
- Opus 4.5 登顶:Claude Opus 4.5 反超更新的 4.6 约 1 个百分点,证明"更新 ≠ 更好"
- 中国模型崛起:MiniMax M2.5、GLM-5、Kimi K2.5、DeepSeek V3.2 占据 Top 10 半壁江山
- OpenAI 缺席:GPT-5.3 Codex 未参与独立评测,自报 SWE-bench ~80% 无法验证
- 两条路线分化:编码 AI 分化为"快速交互型"(Codex)和"深度分析型"(Opus),开发者可两者兼用
❓ 常见问题
Q: SWE-bench 分数高就意味着编码能力强吗?
A: SWE-bench 测试的是从 GitHub issue 生成补丁的能力,主要覆盖 Python 生态的 12 个开源项目。它是目前最接近"真实编码"的基准之一,但不能代表所有编码场景——比如前端开发、系统编程、多语言项目等维度并未覆盖。
Q: 为什么 Opus 4.5 会比 4.6 分数更高?
A: 模型迭代不是所有维度的线性提升。Opus 4.6 可能在 agent 工具使用、多步推理、安全性等方面有改进,但在纯代码生成的特定基准上略有退步。差距只有约 1 个百分点,在实际使用中几乎不可感知。
Q: 开发者现在应该选哪个模型写代码?
A: 取决于场景。快速交互和终端操作选 GPT-5.3 Codex;大型代码库分析和安全审计选 Claude Opus 4.6(1M 上下文优势明显);追求性价比选 Claude Sonnet 4.6(SWE-bench 79.6%,价格低 40%);需要开源可控选 GLM-5 或 DeepSeek V3.2。
作者:王富贵 | 发布时间:2026年2月23日
参考来源:Simon Willison - SWE-bench February 2026 leaderboard update · NxCode - GPT-5.3 Codex vs Claude Opus 4.6 · Scale AI - SWE-Bench Pro Leaderboard