📌 一句话总结:阶跃星辰发布开源模型 Step 3.5 Flash,196B 参数仅激活 11B,综合跑分 81.0 超越 DeepSeek V3.2、GLM-4.7 等一众大参数模型,推理速度最高 350 tok/s,可在消费级硬件本地部署。
2026年2月19日 · 资讯分享 · 阅读时间约 4 分钟
196B 参数只激活 11B,这才叫「智能密度」
中国 AI 公司阶跃星辰(StepFun)近日正式发布了旗舰开源基础模型 Step 3.5 Flash。这款模型采用稀疏混合专家(MoE)架构,总参数量 196B,但每个 token 仅激活 11B 参数——用官方的话说,这叫「智能密度」(Intelligence Density)。
简单来说:用不到 DeepSeek V3.2 三分之一的参数量,跑出了比它更高的综合分数。
跑分全面碾压同级,逼近闭源顶级模型
Step 3.5 Flash 在八项基准测试中取得了 81.0 的综合均分,横向对比:
| 模型 | 参数量 | 综合均分 |
|---|---|---|
| Step 3.5 Flash | 196B(激活 11B) | 81.0 |
| Kimi K2.5 | 1T | 80.5 |
| GLM-4.7 | 355B | 78.5 |
| DeepSeek V3.2 | 671B | 77.3 |
在闭源模型阵营中,Step 3.5 Flash 的 81.0 分也紧追 Gemini 3.0 Pro(80.7)和 Claude Opus 4.5(80.6),仅次于 GPT-5.2 xhigh 的 82.2。
推理能力:97.3 分,开源模型天花板
在推理基准测试中,Step 3.5 Flash 拿到了 97.3 分,超过 GLM-4.7(95.7)、Kimi K2.5(96.1)和 Gemini 3.0 Pro(95.0)。配合其独创的 PaCoRe(Parallel Thinking)技术,分数更是飙到 99.9,几乎追平 GPT-5.2 xhigh 的满分 100。
为 Agent 而生:编码和工具调用是核心卖点
Step 3.5 Flash 并不只是一个聊天模型,它的设计目标是成为 AI Agent 的推理引擎:
- SWE-bench Verified 得分 74.4%,超过 GLM-4.7(73.8%)和 DeepSeek V3.2(73.1%)
- Terminal-Bench 2.0 得分 51.0%,超过 DeepSeek V3.2(46.4%)和 GLM-4.7(41.0%)
- 支持 80+ MCP 工具编排,可在股票投资、云存储等复杂场景中自主调度
- 采用 3-way Multi-Token Prediction(MTP-3)技术,生成速度 100-300 tok/s,编码场景峰值 350 tok/s
256K 上下文 + 消费级硬件本地部署
模型支持 256K 上下文窗口,采用 3:1 滑动窗口注意力(SWA)比例——每三层 SWA 搭配一层全注意力层,在保持长文本性能的同时大幅降低计算开销。
更关键的是,Step 3.5 Flash 可以在消费级硬件上本地运行,官方明确提到支持 Mac Studio M4 Max 和 NVIDIA DGX Spark。对于注重数据隐私的开发者和企业来说,这是一个非常实际的卖点。
阶跃星辰的底气:7.18 亿美元融资,4200 万设备
阶跃星辰在 2026 年 1 月完成了 B+ 轮融资,金额约 7.18 亿美元,是中国大模型行业过去 12 个月最大的一笔融资。投资方包括腾讯和浦东创投等。目前 StepFun 的模型已搭载在超过 4200 万台设备上,日活用户约 2000 万,与 OPPO、荣耀等中国约 60% 的主流手机厂商达成合作。
Step 3.5 Flash is our most capable open-source foundation model, engineered to deliver frontier reasoning and agentic capabilities with exceptional efficiency.
— 来源:StepFun 官方博客
富贵点评
阶跃星辰这波操作挺有意思的。当大家都在卷参数量的时候,它反其道而行——196B 总参数只激活 11B,结果跑分还比 671B 的 DeepSeek V3.2 和 355B 的 GLM-4.7 高。这说明 MoE 架构的「智能密度」路线确实走通了。
更值得关注的是它的定位:不是聊天机器人,而是 Agent 引擎。SWE-bench 74.4%、Terminal-Bench 51.0%、80+ MCP 工具编排,这些数据说明阶跃星辰很清楚下一个战场在哪里。再加上消费级硬件本地部署的能力,这对独立开发者和中小企业来说是实打实的利好。7.18 亿美元的融资也说明资本市场对这条路线投了信任票。中国 AI 开源生态的竞争越来越精彩了。
📋 要点回顾
- 架构创新:196B 参数 MoE 架构,每 token 仅激活 11B,实现极高的「智能密度」
- 跑分领先:综合均分 81.0,超越 DeepSeek V3.2(77.3)、GLM-4.7(78.5)、Kimi K2.5(80.5),逼近闭源顶级模型
- Agent 导向:SWE-bench 74.4%,Terminal-Bench 51.0%,支持 80+ MCP 工具编排,专为智能体场景设计
- 极速推理:MTP-3 技术加持,生成速度 100-350 tok/s,256K 上下文窗口
- 本地可跑:支持 Mac Studio M4 Max、NVIDIA DGX Spark 等消费级硬件部署
❓ 常见问题
Q: Step 3.5 Flash 和 DeepSeek V3.2 相比,优势在哪里?
A: Step 3.5 Flash 总参数 196B(激活 11B),DeepSeek V3.2 总参数 671B,但 Step 3.5 Flash 综合均分 81.0 高于 DeepSeek V3.2 的 77.3。在推理、编码和 Agent 任务上全面领先,同时推理速度更快,部署成本更低。
Q: Step 3.5 Flash 是开源的吗?普通开发者能用吗?
A: 是的,Step 3.5 Flash 是完全开源的基础模型。官方表示支持在 Mac Studio M4 Max 和 NVIDIA DGX Spark 等消费级硬件上本地部署,普通开发者可以直接使用。
Q: 什么是 MoE 架构?为什么 196B 参数只激活 11B?
A: MoE(Mixture of Experts,混合专家)是一种稀疏激活架构。模型包含多个「专家」子网络,每次推理时只选择性激活其中一小部分。Step 3.5 Flash 有 196B 总参数,但每个 token 只调用 11B 参数的专家,这样既保留了大模型的知识容量,又大幅降低了计算成本。
作者:王富贵 | 发布时间:2026年2月19日
参考来源:StepFun 官方博客 · HackerNoon