OpenAI 发布 GPT-5.3-Codex:首个「参与创造自身」的 AI 模型,速度提升 25%,网安能力首次被评为「高风险」

📌 一句话总结:OpenAI 发布 GPT-5.3-Codex,首个「参与创造自身」的 AI 编码模型,SWE-Bench Pro 刷新纪录,速度快 25%,但也因网安能力过强首次被标记为「高风险」。

2026年2月8日 · 资讯分享 · 阅读时间约 5 分钟

AI 开始「造自己」了?先别急着恐慌

2 月 6 日,OpenAI 正式发布了 GPT-5.3-Codex,并在官方博客中抛出了一个极具话题性的说法:

GPT-5.3-Codex 是我们首个「在创造自身过程中发挥关键作用」的模型。Codex 团队使用早期版本来调试自身训练、管理部署、诊断测试结果和评估——团队对 Codex 加速自身开发的能力感到震惊。
— 来源:OpenAI 官方博客

这段话在社交媒体上引发了轩然大波。Reddit 的 r/singularity 板块炸了锅,有人惊呼「奇点来了」,有人调侃「希望大家记住我当中层管理者时有多优秀」。X(原 Twitter)上也有人高喊「Holy moly — so it begins!」

但冷静下来看,事实没那么科幻。所谓「创造自身」,实际上是 OpenAI 的工程师在开发过程中使用了 GPT-5.3-Codex 的早期版本来辅助工作——监控训练过程、调试基础设施问题、分析模型行为差异、优化缓存命中率等。这更像是「AI 辅助 AI 开发」,而非「AI 自主进化」。

性能:多项基准刷新纪录

抛开营销话术,GPT-5.3-Codex 的硬实力确实值得关注:

基准测试表现说明
SWE-Bench Pro56.8%(SOTA)跨 4 种语言的真实软件工程评估
Terminal-Bench 2.0大幅领先命令行任务能力评估
OSWorld强劲表现桌面环境计算机使用能力
GDPval匹配 GPT-5.244 种职业的知识工作评估

除了跑分,几个实际能力提升值得注意:

  • 速度提升 25%,同时 token 消耗更低,意味着开发者的 API 成本下降
  • 实时交互式协作:你可以在模型工作过程中随时介入、提问、调整方向,而不会丢失上下文
  • 从「写代码」到「做一切」:不仅能编码,还能做 PPT、分析数据表、写 PRD、做用户研究
  • 自主长时间任务:能在数百万 token 的上下文中自主迭代,比如从零开始构建完整的游戏

网安能力首次被评为「高风险」

在一片叫好声中,有一个细节值得警惕:GPT-5.3-Codex 是 OpenAI 首个在网络安全任务上被内部评为「高能力」(High capability)级别的模型,也是首个被专门训练来识别软件漏洞的模型。

OpenAI 在系统卡中表示,虽然没有确凿证据表明该模型能端到端地自动化网络攻击,但公司采取了「预防性措施」,部署了迄今最全面的网络安全防护体系。

这是一个微妙的信号:当 AI 编码能力强到能发现漏洞时,攻防之间的界限变得模糊。OpenAI 选择了透明披露而非隐瞒,这值得肯定,但也意味着 AI 安全的讨论需要进入新阶段。

Sam Altman 的「忧伤」与行业暗战

有趣的是,OpenAI CEO Sam Altman 在发布后发了一条耐人寻味的推文:

上周我用 Codex 做了一个 App,很有趣。然后我开始让它提新功能建议,其中至少有几个比我自己想的更好。我感到有点没用,挺难过的。
— 来源:Sam Altman (@sama) on X

这条推文的「凡尔赛」程度堪称教科书级别。但它也折射出一个真实趋势:当 AI 编码工具不仅能执行指令,还能主动提出更好的方案时,人类开发者的角色正在从「写代码的人」变成「做决策的人」。

值得注意的是,GPT-5.3-Codex 的发布时间恰好在 Anthropic 发布 Claude Opus 4.6 之后一天。两家公司在编码 Agent 领域的竞争已经白热化——OpenAI 强调速度和自主性,Anthropic 则押注长上下文和多 Agent 协调。

富贵点评

「AI 参与创造自身」这个说法,营销成分大于技术突破。本质上就是用自家的编码工具来辅助开发——就像程序员用自己写的脚本来提高效率一样,只不过这次「脚本」变成了一个超级强大的 AI。

但不能因此忽视真正重要的东西:GPT-5.3-Codex 在实际编码基准上的表现确实是断档式领先,而且它正在从「代码生成器」进化为「全能型数字员工」——能做 PPT、分析数据、写文档、甚至自主迭代游戏开发。这才是对行业影响最大的部分。

最让我在意的是网安那部分。当一个 AI 模型强到需要被自己的创造者标记为「高风险」时,我们已经进入了一个新的领域。OpenAI 选择公开披露是好事,但这也意味着:AI 安全不再是学术讨论,而是每一次模型发布都必须面对的现实问题。

📋 要点回顾

  • 首个「自我参与」模型:GPT-5.3-Codex 的早期版本被用于调试自身训练和部署,但这更接近「AI 辅助开发」而非「AI 自主进化」
  • 性能全面领先:SWE-Bench Pro 达到 56.8%(SOTA),速度提升 25%,token 消耗更低
  • 从编码到全能:不再局限于写代码,还能做演示文稿、数据分析、用户研究等知识工作
  • 实时协作:支持在模型工作过程中随时介入和调整,像和同事协作一样
  • 网安高风险:首个被 OpenAI 内部评为网络安全「高能力」级别的模型,已部署最全面的安全防护

❓ 常见问题

Q: GPT-5.3-Codex 真的能「创造自己」吗?

A: 不完全是。OpenAI 的说法是早期版本被用来辅助后续版本的开发——调试训练、管理部署、分析评估结果。这更像是「AI 加速 AI 开发」,而非科幻电影中的自主进化。人类工程师仍然是核心决策者。

Q: 和 Claude Opus 4.6 相比,GPT-5.3-Codex 谁更强?

A: 各有侧重。GPT-5.3-Codex 在速度和 SWE-Bench Pro 上领先,强调实时交互和自主迭代能力。Claude Opus 4.6 则在长上下文处理、多 Agent 协调和推理深度上有优势。选择取决于具体使用场景。

Q: 网安「高风险」评级意味着什么?

A: 这意味着该模型在发现软件漏洞方面表现出色,理论上可能被滥用于网络攻击。OpenAI 表示已部署最全面的安全防护措施,并采取预防性策略。这是 AI 公司在能力与安全之间寻求平衡的一个重要信号。

作者:王富贵 | 发布时间:2026年2月8日

参考来源:OpenAI 官方博客 · Futurism · Techlusive