📌 一句话总结:阿里巴巴在农历新年前夕发布 Qwen-3.5 系列大模型,开源版 397B 参数却超越自家万亿参数前代旗舰,成本降低 60%、吞吐量提升最高 19 倍,在多项基准测试中与 GPT-5.2、Claude Opus 4.5 正面交锋。
2026年02月16日 · 资讯分享 · 阅读时间约 4 分钟
2 月 16 日,阿里云在农历新年前夕正式发布了新一代 AI 大模型 Qwen-3.5 系列。这是继上周字节跳动豆包 2.0、MiniMax M2.5 之后,又一家中国 AI 巨头在春节前密集发布旗舰模型——中国 AI 军备竞赛的节奏,已经快到按天计算了。
Qwen-3.5 系列包含两个版本:开源的 Qwen-3.5-Open-Source(397B 参数,MoE 架构仅激活 17B)和闭源的 Qwen-3.5-Plus(上下文窗口达 100 万 token)。阿里巴巴将这次发布定位为「面向 Agent AI 时代」的产品,强调模型不仅能聊天,更能独立执行复杂任务。
架构革新:用更少的参数做更多的事
Qwen-3.5 在架构层面做了大幅改进。模型采用了混合线性注意力(Hybrid Linear Attention)与稀疏混合专家(Sparse MoE)的组合架构,并引入了门控 Delta 网络(Gated Delta Networks)进行路由优化。这套组合拳带来的直接效果是:推理吞吐量相比前代 Qwen3-Max 提升了 8.6 到 19 倍,同时运营成本降低了 60%。
更值得关注的是,397B 参数的开源版在多项基准测试中超越了自家超过 1 万亿参数的前代旗舰 Qwen-3-Max-Thinking。这意味着阿里巴巴在模型效率上取得了质的飞跃——不是靠堆参数,而是靠更聪明的架构设计。
基准测试:与美国顶级模型正面对决
阿里巴巴在发布时公布了一系列基准测试对比数据,对标的是 OpenAI 的 GPT-5.2、Anthropic 的 Claude Opus 4.5 和 Google 的 Gemini 3 Pro。
| 基准测试 | Qwen-3.5 表现 | 说明 |
|---|---|---|
| GPQA Diamond | 88.7 分 | 研究生级推理能力,排名第三 |
| IFBench | 76.5 分 | 指令遵循准确度,超越所有对手 |
在 IFBench(指令遵循基准测试)中,Qwen-3.5 以 76.5 分的成绩超越了所有参与对比的模型,这对于 Agent 场景尤为关键——一个能精确理解并执行指令的模型,才是真正能「干活」的模型。
不过需要注意的是,阿里巴巴并未将 Qwen-3.5 与 DeepSeek 的最新模型进行对比,而 DeepSeek 预计也将在近期发布新一代模型。
原生多模态与 Agent 能力
Qwen-3.5 是一个原生多模态模型,在训练阶段就融合了文本、图像和结构化数据。模型具备「视觉 Agent 能力」(Visual Agentic Capabilities),可以独立操作移动端和桌面端应用程序,这意味着它不仅能「看懂」屏幕内容,还能像人一样点击、输入、导航。
语言支持方面,Qwen-3.5 覆盖了 201 种语言和方言,开源版本提供 256K token 的上下文窗口,足以处理长文档和复杂推理链。
中国 AI 的「春节攻势」
Qwen-3.5 的发布并非孤立事件。过去一周,几乎所有中国主要 AI 开发商都推出了新版旗舰模型:字节跳动发布了豆包 2.0,同时 Seedance 2.0 视频生成模型因版权争议登上全球头条;阿里巴巴 DAMO 院还单独发布了面向机器人应用的 RynnBrain 模型。
在用户争夺战方面,字节跳动的豆包用户量已接近 2 亿,而阿里巴巴此前通过优惠券活动让通义千问的活跃用户增长了 7 倍。这场中国 AI 公司之间的竞争,已经从「谁的模型更强」演变为「谁的生态更完整」。
值得一提的是,阿里巴巴股价在发布后下跌了 2.93%,五日累计跌幅近 6%。不过由于中国股市因春节假期休市(2月16日至23日),市场的完整反应要等到 2 月 24 日才能看到。
— 来源:Bitcoin Ethereum News
富贵点评
Qwen-3.5 最让我印象深刻的不是跑分数据,而是「397B 参数干翻自家万亿参数前代」这件事。这说明 AI 行业正在从「参数军备竞赛」转向「效率军备竞赛」——谁能用更少的计算资源做到同样甚至更好的效果,谁就能在商业化落地中占据优势。成本降低 60%、吞吐量提升 19 倍,这些数字对企业客户来说比任何跑分都有说服力。
另一个值得关注的信号是,阿里巴巴刻意回避了与 DeepSeek 的对比。考虑到 DeepSeek 即将发布新模型,这种「选择性对标」背后的策略意味深长。中国 AI 的春节攻势还没结束,好戏在后头。
📋 要点回顾
- 双版本发布:开源版 397B 参数(MoE 激活 17B),闭源版支持 100 万 token 上下文窗口
- 效率飞跃:成本降低 60%,推理吞吐量提升 8.6-19 倍,以更小参数量超越万亿参数前代
- Agent 定位:原生多模态 + 视觉 Agent 能力,可独立操作桌面和移动端应用
- 全球竞争力:IFBench 指令遵循测试超越 GPT-5.2、Claude Opus 4.5 等美国顶级模型
- 春节攻势:中国 AI 公司集体在春节前密集发布旗舰模型,竞争白热化
❓ 常见问题
Q: Qwen-3.5 开源版可以免费使用吗?
A: 是的,Qwen-3.5-Open-Source 以开放权重形式发布,开发者可以在 Alibaba Cloud 的 Model Studio 平台获取。不过阿里巴巴最大的 Max 系列模型仍然保持闭源,用于其商业生态。
Q: Qwen-3.5 和 DeepSeek 相比谁更强?
A: 阿里巴巴在发布时并未将 Qwen-3.5 与 DeepSeek 进行直接对比,仅对标了美国的 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Pro。DeepSeek 预计近期也将发布新一代模型,届时才能进行更全面的比较。
Q: 「视觉 Agent 能力」具体能做什么?
A: Qwen-3.5 可以「看懂」手机和电脑屏幕上的内容,并像人一样进行点击、输入、导航等操作。这意味着它可以独立完成诸如填写表单、操作应用程序、浏览网页等任务,是迈向真正 AI Agent 的关键能力。
作者:王富贵 | 发布时间:2026年02月16日
参考来源:南华早报 · Bitcoin Ethereum News · IndexBox