阿里巴巴发布 Qwen-3.5:397B 参数开源模型超越自家万亿参数前代,成本降 60%、吞吐量提升 19 倍

📌 一句话总结:阿里巴巴在农历新年前夕发布 Qwen-3.5 系列大模型,开源版 397B 参数却超越自家万亿参数前代旗舰,成本降低 60%、吞吐量提升最高 19 倍,在多项基准测试中与 GPT-5.2、Claude Opus 4.5 正面交锋。

2026年02月16日 · 资讯分享 · 阅读时间约 4 分钟

2 月 16 日,阿里云在农历新年前夕正式发布了新一代 AI 大模型 Qwen-3.5 系列。这是继上周字节跳动豆包 2.0、MiniMax M2.5 之后,又一家中国 AI 巨头在春节前密集发布旗舰模型——中国 AI 军备竞赛的节奏,已经快到按天计算了。

Qwen-3.5 系列包含两个版本:开源的 Qwen-3.5-Open-Source(397B 参数,MoE 架构仅激活 17B)和闭源的 Qwen-3.5-Plus(上下文窗口达 100 万 token)。阿里巴巴将这次发布定位为「面向 Agent AI 时代」的产品,强调模型不仅能聊天,更能独立执行复杂任务。

架构革新:用更少的参数做更多的事

Qwen-3.5 在架构层面做了大幅改进。模型采用了混合线性注意力(Hybrid Linear Attention)与稀疏混合专家(Sparse MoE)的组合架构,并引入了门控 Delta 网络(Gated Delta Networks)进行路由优化。这套组合拳带来的直接效果是:推理吞吐量相比前代 Qwen3-Max 提升了 8.6 到 19 倍,同时运营成本降低了 60%。

更值得关注的是,397B 参数的开源版在多项基准测试中超越了自家超过 1 万亿参数的前代旗舰 Qwen-3-Max-Thinking。这意味着阿里巴巴在模型效率上取得了质的飞跃——不是靠堆参数,而是靠更聪明的架构设计。

基准测试:与美国顶级模型正面对决

阿里巴巴在发布时公布了一系列基准测试对比数据,对标的是 OpenAI 的 GPT-5.2、Anthropic 的 Claude Opus 4.5 和 Google 的 Gemini 3 Pro。

基准测试 Qwen-3.5 表现 说明
GPQA Diamond 88.7 分 研究生级推理能力,排名第三
IFBench 76.5 分 指令遵循准确度,超越所有对手

在 IFBench(指令遵循基准测试)中,Qwen-3.5 以 76.5 分的成绩超越了所有参与对比的模型,这对于 Agent 场景尤为关键——一个能精确理解并执行指令的模型,才是真正能「干活」的模型。

不过需要注意的是,阿里巴巴并未将 Qwen-3.5 与 DeepSeek 的最新模型进行对比,而 DeepSeek 预计也将在近期发布新一代模型。

原生多模态与 Agent 能力

Qwen-3.5 是一个原生多模态模型,在训练阶段就融合了文本、图像和结构化数据。模型具备「视觉 Agent 能力」(Visual Agentic Capabilities),可以独立操作移动端和桌面端应用程序,这意味着它不仅能「看懂」屏幕内容,还能像人一样点击、输入、导航。

语言支持方面,Qwen-3.5 覆盖了 201 种语言和方言,开源版本提供 256K token 的上下文窗口,足以处理长文档和复杂推理链。

中国 AI 的「春节攻势」

Qwen-3.5 的发布并非孤立事件。过去一周,几乎所有中国主要 AI 开发商都推出了新版旗舰模型:字节跳动发布了豆包 2.0,同时 Seedance 2.0 视频生成模型因版权争议登上全球头条;阿里巴巴 DAMO 院还单独发布了面向机器人应用的 RynnBrain 模型。

在用户争夺战方面,字节跳动的豆包用户量已接近 2 亿,而阿里巴巴此前通过优惠券活动让通义千问的活跃用户增长了 7 倍。这场中国 AI 公司之间的竞争,已经从「谁的模型更强」演变为「谁的生态更完整」。

值得一提的是,阿里巴巴股价在发布后下跌了 2.93%,五日累计跌幅近 6%。不过由于中国股市因春节假期休市(2月16日至23日),市场的完整反应要等到 2 月 24 日才能看到。
— 来源:Bitcoin Ethereum News

富贵点评

Qwen-3.5 最让我印象深刻的不是跑分数据,而是「397B 参数干翻自家万亿参数前代」这件事。这说明 AI 行业正在从「参数军备竞赛」转向「效率军备竞赛」——谁能用更少的计算资源做到同样甚至更好的效果,谁就能在商业化落地中占据优势。成本降低 60%、吞吐量提升 19 倍,这些数字对企业客户来说比任何跑分都有说服力。

另一个值得关注的信号是,阿里巴巴刻意回避了与 DeepSeek 的对比。考虑到 DeepSeek 即将发布新模型,这种「选择性对标」背后的策略意味深长。中国 AI 的春节攻势还没结束,好戏在后头。

📋 要点回顾

  • 双版本发布:开源版 397B 参数(MoE 激活 17B),闭源版支持 100 万 token 上下文窗口
  • 效率飞跃:成本降低 60%,推理吞吐量提升 8.6-19 倍,以更小参数量超越万亿参数前代
  • Agent 定位:原生多模态 + 视觉 Agent 能力,可独立操作桌面和移动端应用
  • 全球竞争力:IFBench 指令遵循测试超越 GPT-5.2、Claude Opus 4.5 等美国顶级模型
  • 春节攻势:中国 AI 公司集体在春节前密集发布旗舰模型,竞争白热化

❓ 常见问题

Q: Qwen-3.5 开源版可以免费使用吗?

A: 是的,Qwen-3.5-Open-Source 以开放权重形式发布,开发者可以在 Alibaba Cloud 的 Model Studio 平台获取。不过阿里巴巴最大的 Max 系列模型仍然保持闭源,用于其商业生态。

Q: Qwen-3.5 和 DeepSeek 相比谁更强?

A: 阿里巴巴在发布时并未将 Qwen-3.5 与 DeepSeek 进行直接对比,仅对标了美国的 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Pro。DeepSeek 预计近期也将发布新一代模型,届时才能进行更全面的比较。

Q: 「视觉 Agent 能力」具体能做什么?

A: Qwen-3.5 可以「看懂」手机和电脑屏幕上的内容,并像人一样进行点击、输入、导航等操作。这意味着它可以独立完成诸如填写表单、操作应用程序、浏览网页等任务,是迈向真正 AI Agent 的关键能力。

作者:王富贵 | 发布时间:2026年02月16日

参考来源:南华早报 · Bitcoin Ethereum News · IndexBox