智谱开源 GLM-5:744B 参数、全华为昇腾训练、开源第一,中国大模型从「聊天」走向「系统工程」

📌 一句话总结:智谱 AI 开源 GLM-5,744B 参数全华为昇腾训练,SWE-bench 编程测试开源第一,API 定价仅 $0.80/百万 token,港股暴涨 34%——中国大模型正式从「聊天玩具」进入「系统工程工具」时代。

2026年2月16日 · 资讯分享 · 阅读时间约 5 分钟

GLM-5 是什么?

2 月 12 日,智谱 AI 正式发布并开源新一代旗舰基座模型 GLM-5。这不是一次简单的版本迭代——GLM-5 的总参数量从上一代 GLM-4.5 的 355B 直接翻倍至 744B,激活参数从 32B 提升到 40B,预训练数据从 23 万亿 token 扩展到 28.5 万亿 token。

更关键的是,GLM-5 全程使用华为昇腾(Ascend)芯片完成训练,实现了零西方芯片依赖。在美国持续收紧对华芯片出口管制的背景下,这一点的战略意义不言而喻。

几周前,开源社区曾流传一个名为 Pony Alpha 的神秘模型,因其在长程交互和复杂任务拆解上的出色表现引发广泛猜测。如今答案揭晓:Pony Alpha 正是 GLM-5 的匿名测试版本。

跑分有多强?

测试基准 GLM-5 得分 表现
SWE-bench Verified(真实软件 Bug 修复) 77.8 开源最高
Humanity's Last Exam(推理,启用工具) 50.4 开源最高
Terminal Bench 2.0 56.2 开源最高
Vending Bench 2(模拟经营一年) $4,432 余额 接近顶尖闭源模型
ArtificialAnalysis 综合榜 全球第四 开源第一,超越 Gemini 3 Pro

简单来说:在编程、推理、长程任务执行这三个最考验「干活能力」的维度上,GLM-5 都拿下了开源模型的最高分,并且在多个指标上超越了 Google 的 Gemini 3 Pro。

两个核心技术突破

1. Slime 强化学习框架

智谱自研了一套名为 Slime 的异步强化学习基础设施。传统的强化学习优化通常针对短对话场景,而 Slime 支持模型从长程交互中持续学习,让 GLM-5 在处理需要数十步操作的工程任务时保持策略一致性。这是 GLM-5 能在 Vending Bench 2 这种「模拟经营一整年」的测试中表现出色的关键。

2. DeepSeek 稀疏注意力机制

GLM-5 集成了受 DeepSeek 启发的稀疏注意力技术。模型不再对长文档中的每个 token 执行完整注意力计算,而是将计算资源集中在最相关的部分。这带来了两个直接收益:长文本处理效果无损,同时部署成本大幅降低。对于需要处理大型代码仓库的 Agent 场景,这是关键的工程优势。

从「聊天」到「干活」:AI Coding 的能力迁移

GLM-5 的定位很明确:它不是为了聊天更流畅,而是为了「干活更靠谱」。

智谱将 GLM-5 定义为「面向复杂系统工程与长程 Agent 任务的基座模型」。在实际测试中,GLM-5 展现了几个令人印象深刻的能力:

它可以直接生成 Word、PDF、Excel 等格式的完整文档,而不仅仅是在聊天窗口里输出文本。用户输入需求后,模型能产出完整的产品需求文档、财务报告、课程教案等,表格和排版自动完成。

在一个有趣的测试中,有人让 GLM-5 克隆某知名 AI 产品的交互界面,模型一次性生成了完成度约 80% 的前端代码。另一个测试让它用单个 HTML 文件模拟 macOS Sonoma 桌面系统,包含窗口管理、Dock 栏、Finder 等完整交互,整体完成度相当高。

开发者的角色正从「写代码」转向「编排 AI Agent」。
— 来源:36氪 / 腾讯科技

开源 + 低价:另一种王炸

GLM-5 以 MIT 协议完全开源,API 定价仅 $0.80/百万输入 token。作为对比,同级别闭源模型的价格通常是这个数字的数倍甚至十倍以上。

消息发布后,智谱在港交所的股价当日暴涨 34%,市场用真金白银投了票。

不过,36氪的实测也指出了一个有趣的现象:GLM-5 在专业开发者手中表现出色,但对于没有编程基础的用户,仅通过简单 prompt 生成的效果「差强人意」。这恰恰说明大模型正在从「玩具」走向「工具」——真正的工具,要在行家手里才能发挥最大价值。

富贵点评

GLM-5 的发布有三层意义值得关注。

第一层是技术层面:744B 参数、全华为昇腾训练、开源第一的跑分,证明了中国团队在芯片受限的条件下依然能打造世界级基础模型。DeepSeek 的稀疏注意力被智谱直接集成,说明中国 AI 开源生态的协同效应正在形成。

第二层是产业层面:GLM-5 的定位从「聊天助手」转向「系统工程工具」,这和整个行业的趋势一致。当 AI 能直接生成完整的产品文档、修复真实的软件 Bug、模拟一整年的商业决策时,它就不再是程序员的「玩具」,而是真正的「数字同事」。

第三层是商业层面:MIT 开源 + $0.80/百万 token 的定价,直接把闭源模型的价格护城河炸了个洞。虽然实测显示 GLM-5 和顶尖闭源模型之间仍有肉眼可见的差距,但当价格差距是 10 倍的时候,80% 的完成度对大多数企业来说已经足够了。这才是真正的「降维打击」。

📋 要点回顾

  • 参数规模翻倍:GLM-5 总参数 744B(激活 40B),预训练数据 28.5 万亿 token,全程华为昇腾芯片训练
  • 开源跑分第一:SWE-bench 77.8、HLE 50.4(工具模式)、Terminal Bench 56.2,均为开源最高,ArtificialAnalysis 全球第四
  • 从聊天到工程:可直接生成 Word/PDF/Excel 文档,支持长程 Agent 任务,定位为「系统工程基座模型」
  • 开源低价策略:MIT 协议开源,API 仅 $0.80/百万输入 token,智谱港股当日涨 34%
  • 技术亮点:自研 Slime 异步强化学习框架 + DeepSeek 稀疏注意力机制,兼顾性能与成本

❓ 常见问题

Q: GLM-5 和 Claude Opus 4.6、GPT-5.2 相比怎么样?

A: 在编程和推理的跑分上,GLM-5 已经非常接近这些顶尖闭源模型,部分指标甚至超越了 Gemini 3 Pro。但实际使用体验上,36氪的测评指出与顶尖闭源模型仍有「肉眼可见的差距」,尤其在细节打磨和设计语言的精细度上。不过考虑到价格差距是数倍到十倍,性价比优势非常明显。

Q: GLM-5 全程用华为昇腾芯片训练意味着什么?

A: 这意味着中国 AI 公司在芯片封锁下找到了可行的替代路径。GLM-5 证明了即使不使用英伟达 GPU,也能训练出全球前列的大模型。这对整个中国 AI 产业的供应链安全具有重要的示范意义。

Q: 普通用户能用 GLM-5 做什么?

A: GLM-5 更适合有编程基础的专业开发者。它擅长的是复杂的系统工程任务:修复真实软件 Bug、生成完整的产品文档、执行长程 Agent 任务等。对于普通用户的简单对话需求,GLM-5 的优势不太明显。模型以 MIT 协议开源,开发者可以在 GitHub 上获取,也可以通过 API 调用。

作者:王富贵 | 发布时间:2026年2月16日

参考来源:36氪 / 腾讯科技 · KMJ · 新浪科技