📌 一句话总结:阿里巴巴发布 Qwen3.5 旗舰模型,397B 总参数仅激活 17B,推理成本降低 60%、吞吐量提升 8 倍,原生视觉 Agent 能力让 AI 从「聊天工具」进化为「数字执行层」,在 80% 的基准测试中超越 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Pro。
2026年2月17日 · 深度解读 · 阅读时间约 8 分钟
从聊天机器人到数字员工:Qwen3.5 想要改写什么
2026 年 2 月 16 日,阿里巴巴通义千问团队正式发布了 Qwen3.5 系列模型。这不是一次常规的版本迭代——阿里在官方声明中明确将其定位为「为 Agentic AI 时代而生」的模型。这句话背后的潜台词是:大语言模型的竞争焦点,正在从「谁更聪明」转向「谁更能干活」。
过去三年,AI 行业经历了从文本生成到多模态理解的跃迁。但到了 2026 年初,一个新的共识正在形成:仅仅能理解和生成内容已经不够了,AI 需要能够自主执行任务。Qwen3.5 正是阿里对这一趋势的全面回应。
架构拆解:397B 参数里只用 17B 的秘密
Qwen3.5 的旗舰型号为 Qwen3.5-397B-A17B,采用稀疏混合专家(Sparse MoE)架构。总参数量达到 3970 亿,但每次前向传播仅激活 170 亿参数——这意味着激活内存相比同等能力的稠密模型降低了约 95%。
这套架构基于 Qwen3-Next 基座构建,引入了几项关键升级:
- 混合线性注意力机制(Hybrid Linear Attention):结合 Gated Delta Networks 与稀疏专家路由,实现跨专家组的并行计算。这不是简单的 Transformer 变体,而是在注意力层面做了根本性的效率优化。
- 原生 FP8 训练管线:从预训练阶段就采用 FP8 精度,激活内存再降约 50%。这意味着同样的 GPU 集群可以训练更大的模型,或者用更少的硬件达到相同效果。
- 推测解码与多轮回放锁定:在推理层面,Qwen3.5 引入了推测解码(Speculative Decoding)、Rollout Replay 和多轮 Rollout 锁定等优化技术。
效果如何?在 32K 上下文长度下,解码吞吐量达到 Qwen3-Max 的 8.6 倍;在 256K 上下文下更是达到 19 倍。在 8 块 H100 GPU 上,模型可以实现每秒 45 个 token 的生成速度。
「Built for the agentic AI era, Qwen3.5 is designed to help developers and enterprises move faster and do more with the same compute, setting a new benchmark for capability per unit of inference cost.」
— 来源:Reuters
基准测试:数字好看,但需要冷静看
阿里声称 Qwen3.5 在 80% 的评估基准上超越了 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Pro。以下是关键数据:
| 类别 | 基准测试 | 得分 |
|---|---|---|
| 数学推理 | AIME26 | 91.3 |
| 研究生级推理 | GPQA Diamond | 88.4 |
| 竞赛编程 | LiveCodeBench v6 | 83.6 |
| 真实编码工作流 | SWE-bench Verified | 76.4 |
| Agent 工具调用 | BFCL v4 | 72.9 |
| 多模态理解 | MMMU | 85.0 |
| 视频理解 | Video-MME | 87.5 |
这些数字确实亮眼,但需要注意几点:第一,这些是阿里自己公布的基准测试结果,独立验证仍在进行中;第二,基准测试分数与真实世界的可用性之间存在显著差距;第三,不同模型在不同任务上各有优劣,「80% 超越」这个说法取决于选择哪些基准来评估。
不过,有一个数据值得特别关注:SWE-bench Verified 得分 76.4。这个基准测试衡量的是模型在真实 GitHub 代码仓库中解决实际 bug 的能力,是目前最接近「真实编码能力」的评估标准之一。这个分数说明 Qwen3.5 在实际开发场景中确实具备相当的竞争力。
视觉 Agent:从「看懂」到「动手」的跨越
Qwen3.5 最具差异化的能力是其「视觉 Agent」功能。与传统多模态模型只能描述图片内容不同,Qwen3.5 可以直接在手机和电脑应用中执行操作——分析 UI 截图、识别可交互元素、执行多步骤工作流。
具体来说:
- 移动端:根据自然语言指令在 App 内执行操作,并在不同应用之间无缝切换
- 桌面端:管理办公自动化的长流程工作,支持最长 100 万 token 的输入(约 2 小时视频)
- 跨模态创作:将手绘 UI 草图转换为前端代码、从游戏录像中逆向工程游戏逻辑、将长视频总结为结构化网页
ScreenSpot Pro 得分 65.6 和 BFCL v4 得分 72.9 表明,模型在结构化工具调用方面已经具备实用能力,但复杂的真实世界工作流可能仍需要额外的编排层来保证可靠性。
这里有一个值得深思的转变:当 AI 从「回答问题」进化到「执行操作」,它就不再只是一个聊天工具,而是变成了一个「数字执行层」。正如 Greyhound Research 首席分析师 Sanchit Vir Gogia 所说:
「当这些能力组合在一起时,系统就不再像一个对话助手,而是开始像一个执行层。这恰恰是机遇与风险交汇的地方。」
— 来源:InfoWorld
成本革命:每百万 token 0.18 美元意味着什么
Qwen3.5 的另一个核心卖点是成本效率。阿里公布的数据显示:
- 运行成本比上一代降低 60%
- 处理大规模工作负载的效率提升 8 倍
- Qwen3.5-Plus 托管版本处理 100 万 token 的成本约为 0.18 美元
词汇表从 Qwen3 的 15.2 万扩展到 25 万 token,直接减少了非英语文本的 token 数量。阿里称这为全球化应用带来了 10%-60% 的 token 成本节省,对于之前在分词器中代表性不足的语言尤其明显。模型现在支持 201 种语言和方言,比 Qwen3 的 119 种增加了 69%。
对于选择自托管开源版本的企业,17B 的激活参数量意味着 GPU 内存需求远低于同等能力的稠密模型。在 8 块 H100 上即可运行,每秒生成 45 个 token——这让自托管成为拥有现有 GPU 基础设施的企业的可行选择。
成本降低的意义不仅仅是省钱。当推理成本降到足够低,很多之前「算不过来账」的 AI 应用场景就变得可行了。比如让 AI Agent 持续监控和操作企业内部系统、实时处理大量文档流、或者为每个用户提供个性化的多步骤任务执行——这些场景对推理成本极其敏感。
竞争格局:春节档的 AI 模型大战
Qwen3.5 的发布时机耐人寻味。就在两天前,字节跳动刚刚发布了豆包 2.0,同样打出了「Agent 时代」的旗号。而 DeepSeek 的下一代模型也被广泛预期即将发布。
回顾一年前的 2025 年春节,DeepSeek 的 R1 推理模型横空出世,以极低的成本实现了令人惊讶的性能,一度在下载量上超越豆包,震动了整个全球 AI 行业。那次事件证明了一个道理:在 AI 领域,创新可以来得很快,即使是资金雄厚的大公司也可能被颠覆。
阿里是最早做出反应的大公司之一,迅速推出了 Qwen 2.5-Max。一年后的今天,这种紧迫感显然有增无减。中国 AI 聊天机器人市场的竞争格局如下:
| 产品 | 公司 | 周活跃用户 | 最新动态 |
|---|---|---|---|
| 豆包 | 字节跳动 | 1.55 亿 | 豆包 2.0(2月15日) |
| DeepSeek | 深度求索 | 8160 万 | 下一代模型即将发布 |
| 通义千问 | 阿里巴巴 | — | Qwen3.5(2月16日) |
值得注意的是,阿里在 Qwen3.5 的发布中并没有直接提及 DeepSeek,而是选择与美国的 GPT-5.2、Claude Opus 4.5、Gemini 3 Pro 进行对标。这个策略选择本身就很有意思——阿里想要传递的信息是:中国 AI 不仅在国内竞争,更要在全球舞台上与顶级模型正面较量。
同时,阿里也在用户增长上发力。本月早些时候,阿里通过通义千问聊天界面推出了优惠券活动,用户可以直接通过 AI 聊天购买食品饮料,活跃用户增长了 7 倍。虽然出现了一些技术故障,但这个实验揭示了一个重要趋势:AI 工具正在越来越多地嵌入电商生态系统,而不是作为独立的聊天平台存在。阿里在在线零售领域的优势,为这种整合提供了天然的试验场。
开源策略:Apache 2.0 的野心
Qwen3.5-397B-A17B 以 Apache 2.0 许可证开源,可在 Hugging Face、ModelScope 和 GitHub 上下载,支持完全商用。这延续了阿里在开源 AI 领域的一贯策略,但规模和能力都达到了新的高度。
开源版本与托管版本(Qwen3.5-Plus)形成了互补:
- 开源版本:适合需要数据主权、自定义微调的企业,推荐 8 块 H100 GPU 部署
- 托管版本:提供 100 万 token 上下文窗口、内置自适应工具调用,通过阿里云 Model Studio 访问,兼容 OpenAI SDK
兼容 OpenAI SDK 这一点值得关注——这意味着已经基于 OpenAI API 构建应用的开发者可以用极低的迁移成本切换到 Qwen3.5,这是一个非常聪明的生态策略。
富贵点评
Qwen3.5 的发布标志着 AI 竞争进入了一个新阶段。过去大家比的是「谁的模型更聪明」,现在比的是「谁的模型更能干活、更便宜、更容易用」。397B 参数只激活 17B 的 MoE 架构,本质上是在说:暴力堆参数的时代结束了,精巧的工程设计才是王道。
但我更关注的是「视觉 Agent」这个方向。当 AI 能直接操作你的手机和电脑,它就不再是一个你需要去「使用」的工具,而是一个能替你「做事」的数字员工。这个转变的意义远比基准测试分数重要得多。当然,能力越大责任越大——当 AI 可以自主执行操作时,可靠性、安全性和可控性就变成了比性能更关键的问题。阿里在这方面还需要更多时间来证明自己。
另外,春节档三家同时发模型(字节豆包 2.0、阿里 Qwen3.5、DeepSeek 蓄势待发),这种「卷」的程度在全球 AI 行业都是罕见的。对开发者来说这是好事——更多选择、更低成本、更快迭代。但对投资者来说,这也意味着没有谁能建立持久的护城河,AI 模型层的利润空间会被持续压缩。
📋 要点回顾
- 架构创新:Qwen3.5 采用 397B 总参数 / 17B 激活参数的稀疏 MoE 架构,配合混合线性注意力和原生 FP8 训练,实现了 8.6 倍吞吐量提升和 60% 成本降低
- 视觉 Agent 能力:原生支持在手机和桌面应用中自主执行操作,从「对话式 AI」进化为「执行式 AI」,支持 100 万 token 上下文(约 2 小时视频)
- 基准表现:AIME26 得分 91.3、SWE-bench Verified 76.4、LiveCodeBench v6 83.6,阿里声称在 80% 的基准上超越 GPT-5.2 和 Claude Opus 4.5(独立验证进行中)
- 开源与生态:Apache 2.0 开源,支持 201 种语言,兼容 OpenAI SDK,8 块 H100 即可自托管部署
- 竞争态势:与字节豆包 2.0 同期发布,DeepSeek 下一代模型蓄势待发,中国 AI 春节档竞争白热化
❓ 常见问题
Q: Qwen3.5 和 GPT-5.2、Claude Opus 4.5 相比到底谁更强?
A: 根据阿里公布的基准测试数据,Qwen3.5 在 80% 的评估项目上超越了这些模型,特别是在数学推理(AIME26: 91.3)和编码(LiveCodeBench v6: 83.6)方面表现突出。但这些数据尚未经过完全独立验证,且基准测试分数不等于真实世界表现。建议开发者根据自己的具体场景进行实测。
Q: 普通开发者如何使用 Qwen3.5?
A: 有两种方式。一是通过阿里云 Model Studio 使用托管版 Qwen3.5-Plus,兼容 OpenAI SDK,迁移成本极低;二是从 Hugging Face 或 ModelScope 下载开源版 Qwen3.5-397B-A17B 自行部署,需要 8 块 H100 GPU。对于大多数开发者,推荐先从 API 方式开始体验。
Q: 「视觉 Agent」能力在实际应用中成熟度如何?
A: 从基准测试来看,ScreenSpot Pro 65.6 和 BFCL v4 72.9 的分数表明模型在结构化工具调用方面已具备实用能力,但在复杂的真实世界工作流中可能仍需要额外的编排层。Gartner 分析师也指出,企业在生产环境中部署前仍需要可靠的性能指标、稳定性保证和治理控制。
Q: Qwen3.5 的发布对中国 AI 行业格局有什么影响?
A: Qwen3.5 与豆包 2.0 同期发布,加上 DeepSeek 即将推出新模型,标志着中国 AI 竞争进入了「Agent 时代」的新阶段。竞争焦点从模型智能转向任务执行能力和成本效率。对开发者是利好(更多选择、更低成本),但也意味着模型层的差异化越来越难,商业化压力持续增大。
作者:王富贵 | 发布时间:2026年2月17日
参考来源:Reuters · CNBC · InfoWorld · Digital Applied · Qwen 官方博客