📌 一句话总结:阿里巴巴 Qwen3.5 用「门控 Delta 网络 + 稀疏混合专家」的混合架构,把 397 亿参数压缩到仅激活 17 亿,推理吞吐量暴涨 19 倍,同时原生支持视觉 Agent 操控手机电脑——这不只是一次模型升级,而是对「大模型必须又大又慢」这一行业共识的正面挑战。
2026年2月18日 · 深度解读 · 阅读时间约 8 分钟
为什么 Qwen3.5 值得一篇深度解读
2026 年 2 月 16 日,阿里巴巴通义千问团队发布了 Qwen3.5 系列模型。如果你只看新闻标题,可能会觉得这不过是又一次「参数更大、跑分更高」的常规迭代。但仔细拆解技术细节后会发现,Qwen3.5 做了一件大多数厂商还没敢做的事:彻底重构注意力机制的底层架构。
传统 Transformer 的自注意力机制有一个众所周知的痛点——计算复杂度随序列长度呈二次方增长。序列长度翻倍,显存需求翻四倍。这就是为什么百万 token 上下文窗口在理论上可行,在工程上却极其昂贵。Qwen3.5 的解法不是简单地堆硬件,而是从架构层面引入了一种全新的混合设计。
架构拆解:三层创新叠加
第一层:门控 Delta 网络(Gated Delta Networks)
这是 Qwen3.5 最核心的架构创新。传统 Transformer 的每一层都使用标准的自注意力机制,而 Qwen3.5 在 75% 的层中用「门控 Delta 网络」替代了标准注意力。
门控 Delta 网络结合了两种技术:门控机制(Gating)让模型能主动「遗忘」不需要的信息,释放显存;Delta 规则则是一种更高效的参数更新方式,最早由 Nvidia 研究团队在 2025 年验证其有效性。两者结合的效果是:注意力计算从二次方复杂度降到近似线性,百万 token 上下文不再需要天价算力。
具体到 Qwen3.5 的 60 层网络,每 4 层为一组,其中 3 层使用门控 Delta 网络 + MoE,1 层使用标准注意力 + MoE,这个 3:1 的比例重复 15 次。这种设计既保留了标准注意力在关键位置的精确建模能力,又通过线性注意力大幅降低了整体计算开销。
门控 Delta 网络使用 64 个线性注意力头处理 Value,16 个头处理 Query 和 Key。这种非对称设计进一步压缩了计算量,同时保持了模型的表达能力。
— 来源:MarkTechPost 技术分析
第二层:超高稀疏度的混合专家(MoE)
Qwen3.5 拥有 512 个专家网络,但每个 token 只激活其中 10 个路由专家和 1 个共享专家,总共 11 个。换算下来,397 亿总参数中每次推理只激活约 17 亿,激活率仅 4.3%。
这意味着什么?你获得的是一个 400B 级别模型的智能水平,但推理成本接近一个 20B 模型。根据阿里巴巴公布的数据,Qwen3.5 的 API 价格为每百万输入 token 0.40 美元,而同级别的闭源模型通常在 5-7 美元——便宜了 10 到 15 倍。
| 模型 | 输入价格(每百万 token) | 输出价格(每百万 token) |
|---|---|---|
| Qwen3.5-Plus | $0.40 | $2.40 |
| GPT-5.2 | ~$5.00 | ~$15.00 |
| Claude Opus 4.6 | $5.00 | $25.00 |
| Gemini 3 Pro | ~$7.00 | ~$21.00 |
第三层:原生多模态早期融合
很多模型的视觉能力是后期「嫁接」上去的——先训练一个纯文本模型,再接一个视觉编码器。Qwen3.5 采用了「早期融合」(Early Fusion)策略,从训练的第一天起就同时学习文本和图像。这种方式训练成本更高,但效果显著:Qwen3.5 在视觉推理基准测试中全面超越了专门为图像分析设计的 Qwen3-VL。
视觉 Agent:从「看图说话」到「看屏幕干活」
Qwen3.5 最让人兴奋的能力不是跑分,而是它的视觉 Agent。这不是一个需要额外适配器的插件功能,而是模型的原生能力。
它的工作流程是这样的:接收当前屏幕截图 → 识别可交互的 UI 元素(按钮、输入框、菜单)→ 规划多步骤工作流 → 生成可执行的操作指令(点击、输入、滚动、切换应用)→ 接收下一帧截图,循环直到任务完成。
| 能力 | 应用场景 | 基准得分 |
|---|---|---|
| 桌面应用控制 | 打开 Photoshop、应用滤镜、保存文件 | OSWorld: 62.2 |
| 手机应用控制 | 叫车、点外卖、发消息 | AndroidWorld: 66.8 |
| 浏览器自动化 | 搜索、填表、多页面导航 | BrowseComp: 78.6 |
| 工具编排 | 调用 API、执行代码、链式工具调用 | BFCL-V4: 72.9 |
更实际的应用场景包括:把手绘 UI 草图转换成前端代码、从游戏录像中逆向工程游戏逻辑、将两小时的长视频总结成结构化网页。这些不再是实验室 demo,而是一个开源模型开箱即用的能力。
吞吐量的飞跃:数字背后的工程意义
阿里巴巴公布的吞吐量数据值得仔细看:
- 在 32K 上下文长度下,解码吞吐量是 Qwen3-Max 的 8.6 倍
- 在 256K 上下文长度下,解码吞吐量是 Qwen3-Max 的 19 倍
- 与 Qwen3-235B-A22B 相比,32K 下吞吐量提升 3.5 倍,256K 下提升 7.2 倍
注意一个关键趋势:上下文越长,Qwen3.5 的优势越大。这正是门控 Delta 网络的线性注意力在发挥作用——当序列长度从 32K 增长到 256K(8 倍),标准注意力的计算量增长 64 倍,而线性注意力只增长 8 倍。这意味着 Qwen3.5 在处理长文档、长视频、大型代码库时的成本优势会被进一步放大。
对于开发者来说,这解锁了一个重要场景:你可以把整个代码仓库塞进一个 prompt,而不需要搭建复杂的 RAG(检索增强生成)系统。百万 token 的上下文窗口大约相当于两小时的视频,或者一个中等规模的完整项目代码。
跑分解读:强在哪里,弱在哪里
Qwen3.5 在多个基准测试中表现出色,但也有明显的短板:
强项:
- 指令遵循(IFEval 92.6、IFBench 76.5)——在复杂指令场景下超越多数闭源模型
- 多语言能力(MMLU-Redux 94.9、C-Eval 93.0)——201 种语言支持,从 119 种大幅扩展
- 视觉理解(MMMU 85.0、MathVista 90.3)——超越专门的视觉模型
- 编码能力(LiveCodeBench v6 83.6、SWE-bench Verified 76.4)——接近顶级闭源水平
短板:
- 数学竞赛(AIME 2026 91.3 vs GPT-5.2 的 96.7)——在最难的数学推理上仍有差距
- 终端操作(Terminal-Bench 52.5 vs Claude Opus 4.6 的 59.3)——命令行交互还需提升
- SWE-bench(76.4 vs Claude Opus 4.6 的 80.9)——在真实软件工程任务上略逊一筹
但这里有一个关键视角:Qwen3.5 是开源的(Apache 2.0 许可证),而它对标的都是闭源商业模型。在开源模型中,它目前没有对手。
行业影响:开源模型的「iPhone 时刻」?
Qwen3.5 的发布时机耐人寻味。就在同一周,中国 AI 公司密集发布新模型,Agent 能力成为新一轮竞争焦点。但 Qwen3.5 的意义超越了中美 AI 竞赛的叙事框架。
它真正挑战的是一个行业假设:前沿级别的 AI 能力必须由闭源商业公司垄断。当一个开源模型在大多数基准测试上能和 GPT-5.2、Claude Opus 4.6 打得有来有回,而且推理成本低 10 倍以上,闭源模型的护城河就变得非常脆弱。
对于企业用户来说,这意味着:
- 数据主权:可以在自己的服务器上运行前沿模型,敏感数据不需要发送给第三方
- 成本可控:自托管的量化版本只需要 2-3 张 H100,长期运行成本远低于 API 调用
- 定制自由:Apache 2.0 许可证允许商业使用和微调,不受闭源模型的使用条款限制
路透社报道称,Qwen3.5 的使用成本比前代降低 60%,处理大规模工作负载的能力提升 8 倍。阿里巴巴同时表示,该模型还具备在移动端和桌面端独立执行操作的能力。
— 来源:Reuters
富贵点评
说实话,Qwen3.5 让我重新审视了「开源 vs 闭源」这个老话题。以前我们说开源模型「够用但不够强」,现在这个说法站不住了。397 亿参数只激活 17 亿,推理成本是闭源竞品的十分之一,跑分还能打个平手——这不是「追赶」,这是「换道超车」。
门控 Delta 网络这个架构选择特别值得关注。大多数厂商还在标准 Transformer 上做优化,阿里直接换了底层引擎。75% 的层用线性注意力,上下文越长优势越大,这对 Agent 场景简直是量身定做。想象一下,一个能看着你的屏幕、理解整个代码仓库、还能自己动手操作的 AI 助手,而且是开源免费的。2026 年的 AI 开发者,日子是真的好过了。
当然也要泼点冷水:在最难的数学推理和真实软件工程任务上,Qwen3.5 和顶级闭源模型还有差距。但考虑到它的成本优势和开源属性,这个差距对 90% 的实际应用场景来说根本不重要。真正重要的是,前沿 AI 能力的获取门槛,正在被彻底拉低。
📋 要点回顾
- 架构革新:Qwen3.5 采用门控 Delta 网络 + 稀疏 MoE 混合架构,75% 的层使用线性注意力,实现近似线性的计算复杂度,百万 token 上下文不再是奢侈品
- 极致效率:397 亿总参数仅激活 17 亿(4.3% 激活率),推理吞吐量最高达前代 19 倍,API 价格仅为闭源竞品的十分之一
- 原生视觉 Agent:通过早期融合训练获得原生多模态能力,可直接操控手机和电脑界面,在 OSWorld、AndroidWorld 等 Agent 基准测试中表现领先
- 开源生态:Apache 2.0 许可证,支持商业使用和微调,量化版本约 200GB 可在 2-3 张 H100 上自托管运行
- 行业意义:开源模型首次在大多数基准测试上与顶级闭源模型持平,前沿 AI 能力的获取门槛被大幅拉低
❓ 常见问题
Q: Qwen3.5 的 397 亿参数只激活 17 亿,会不会影响模型质量?
A: 不会。稀疏混合专家(MoE)的核心思想是「术业有专攻」——512 个专家网络各自擅长不同领域,每个 token 只需要最相关的 11 个专家参与计算。基准测试证明,Qwen3.5 在大多数任务上与 GPT-5.2、Claude Opus 4.6 等全参数激活的闭源模型表现相当。
Q: 普通开发者能自己部署 Qwen3.5 吗?需要什么硬件?
A: 可以。完整的 BF16 版本需要 8 张 H100 80GB(约 794GB 显存),但量化版本(AWQ/GGUF 格式)只需要 2-3 张 H100 或 1 张 MI300X,存储约 200GB。如果不想自托管,也可以直接使用阿里云 Model Studio 的 API,兼容 OpenAI SDK,新用户有 100 万 token 的免费额度。
Q: 门控 Delta 网络和标准 Transformer 注意力有什么本质区别?
A: 标准自注意力需要每个 token 和所有其他 token 计算关联度,复杂度是 O(n²)。门控 Delta 网络通过线性注意力机制将复杂度降到近似 O(n),同时用门控机制主动丢弃不重要的信息。代价是在某些需要精确长距离依赖的场景下可能略逊于标准注意力,所以 Qwen3.5 保留了 25% 的标准注意力层作为补充。
Q: Qwen3.5 的视觉 Agent 能力和 GPT-5.2 的 Computer Use 有什么区别?
A: 最大的区别是开源和成本。Qwen3.5 的视觉 Agent 是原生能力,通过早期融合训练获得,Apache 2.0 开源许可证意味着你可以在自己的服务器上运行,不需要把屏幕截图发送给第三方。在 ScreenSpot Pro(UI 元素识别)上得分 65.6,BrowseComp(网页浏览)上得分 78.6,已经具备实用价值。
作者:王富贵 | 发布时间:2026年2月18日
参考来源:Qwen 官方博客 · Reuters · SiliconANGLE · MarkTechPost · CNBC