📌 一句话总结:MiniMax 开源 M2.5 模型,230B 参数 MoE 架构仅激活 10B,编程和 Agent 能力比肩顶级闭源模型,API 价格却只有 1/20——1 万美元可以让 4 个 AI Agent 连续工作一整年。
2026-02-15 · 资讯分享 · 阅读时间约 5 分钟
一个月前刚在港交所 IPO,现在又放了个大招
2026 年 2 月 11 日,上海 AI 公司 MiniMax 在 Hugging Face 上正式开源了 M2.5 大语言模型。就在一个月前,这家公司刚刚完成了港交所 IPO,募资 6.19 亿美元。
M2.5 采用 230B 参数的 MoE(混合专家)架构,但每次前向传播仅激活约 10B 参数——也就是说,只用了总参数量的 4%,就实现了与顶级闭源模型相当的性能。这种「大模型小推理」的设计,直接把成本打了下来。
M2.5 是第一个不需要考虑使用成本就可以无限使用的前沿模型。
— 来源:MiniMax 官方博客
跑分到底有多强
先看硬数据:
| 基准测试 | M2.5 得分 | 对比 |
|---|---|---|
| SWE-Bench Verified | 80.2% | 持平顶级闭源模型 |
| Multi-SWE-Bench | 51.3%(全球第一) | 超越所有竞品 |
| BrowseComp | 76.3% | 行业顶尖水平 |
| BFCL 多轮函数调用 | 76.8% | 领先顶级闭源模型 13 个百分点 |
在 OpenHands 独立评测中,M2.5 排名全球第四,仅次于三个顶级闭源模型。而在多语言编程任务 Multi-SWE-Bench 上,M2.5 以 51.3% 的得分拿下了全球第一。
速度方面也有明显进步:完成 SWE-Bench Verified 评测的平均时间从上一代 M2.1 的 31.3 分钟缩短到 22.8 分钟,提速 37%,与顶级闭源模型的 22.9 分钟基本持平。
价格才是真正的杀手锏
M2.5 提供两个版本:
| 版本 | 速度 | 输入价格 | 输出价格 | 每小时成本 |
|---|---|---|---|---|
| M2.5-Lightning | 100 TPS | $0.30/M tokens | $2.40/M tokens | $1.00 |
| M2.5 Standard | 50 TPS | $0.15/M tokens | $1.20/M tokens | $0.30 |
换算一下:1 万美元可以让 4 个 AI Agent 连续工作一整年。这个价格大约是顶级闭源模型的 1/10 到 1/20。
更关键的是,M2.5 以修改版 MIT 协议开源,开发者可以下载模型权重在本地运行、针对特定场景微调,不依赖任何外部 API。唯一的要求是商业使用时需要在产品界面上标注「MiniMax M2.5」。
技术上怎么做到的
M2.5 的核心技术突破来自大规模强化学习。MiniMax 自研了名为 Forge 的原生 Agent RL 框架,在超过 20 万个真实世界环境中训练模型。
几个关键技术点:
- 使用 CISPO(Clipped Importance Sampling Policy Optimization)算法,训练速度比 DAPO 快 2 倍
- 引入过程奖励机制(Process Reward),对 Agent 任务的全链路进行质量监控
- 直接估计任务在真实环境下的耗时作为奖励信号,在效果和速度之间取得平衡
- 覆盖 10+ 编程语言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java 等)
MiniMax 表示,模型能力随算力和任务数量呈近线性提升,验证了 Agent RL 的 scaling law。
不只是写代码:办公场景也在发力
M2.5 不仅在编程上表现突出,在办公场景也有显著提升。MiniMax 与金融、法律、社会科学等领域的资深从业者合作,让模型学会了处理 Word 排版、PPT 编辑、Excel 金融建模等高阶任务。
在 MiniMax 内部,M2.5 已经承担了 30% 的真实业务任务,覆盖研发、产品、销售、HR、财务等职能。在编程场景中,M2.5 生成的代码占新提交代码的 80%。
富贵点评
MiniMax M2.5 的发布,本质上是在回答一个行业核心问题:前沿 AI 能力一定要很贵吗?
答案显然是「不一定」。通过 MoE 架构只激活 4% 的参数、大规模 Agent RL 训练、以及激进的定价策略,MiniMax 把前沿模型的使用门槛从「大厂专属」拉到了「创业公司也用得起」的水平。
但更值得关注的是时间线:从 M2 到 M2.1 再到 M2.5,只用了 108 天。这种迭代速度,加上开源策略和港交所 IPO 带来的资金弹药,让 MiniMax 在中国 AI 公司中走出了一条差异化路线——不卷参数规模,卷性价比和实用性。
对于开发者来说,这意味着一个实际的选择出现了:如果你的场景对成本敏感,或者需要本地部署,M2.5 可能是目前最值得认真评估的开源选项之一。当然,跑分和实际生产之间永远有差距,具体效果还得自己试了才知道。
📋 要点回顾
- 模型架构:230B 参数 MoE,每次推理仅激活 10B 参数(4%),在 Hugging Face 以修改版 MIT 协议开源
- 性能表现:SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3% 全球第一,BrowseComp 76.3%,OpenHands 排名全球第四
- 成本优势:API 价格约为顶级闭源模型的 1/10 到 1/20,每小时连续运行最低仅需 0.3 美元
- 训练方法:自研 Forge Agent RL 框架,在 20 万+ 真实环境中大规模强化学习训练,使用 CISPO 算法
- 实际应用:MiniMax 内部 30% 业务任务由 M2.5 完成,编程场景中 80% 新代码由模型生成
❓ 常见问题
Q: MiniMax M2.5 是完全免费的吗?
A: 模型权重在 Hugging Face 上以修改版 MIT 协议开源,可以免费下载和使用。商业使用需要在产品界面标注「MiniMax M2.5」。如果使用 MiniMax 的 API 服务,则按 token 计费,Lightning 版本输入 $0.30/M、输出 $2.40/M。
Q: M2.5 和顶级闭源模型相比,实际使用体验差距大吗?
A: 从跑分来看,M2.5 在编程和 Agent 任务上已经非常接近甚至部分超越顶级闭源模型。但跑分和实际生产场景之间总有差距,特别是在中文理解、特定领域知识等方面,建议根据自己的实际场景做测试评估。
Q: 230B 参数的模型,普通开发者能本地跑吗?
A: 虽然总参数量是 230B,但由于 MoE 架构每次只激活 10B 参数,实际推理时的显存和算力需求远低于同等参数量的稠密模型。不过即便如此,本地部署仍然需要较高配置的 GPU 服务器,普通消费级显卡可能不够。对于个人开发者,使用 MiniMax 的 API 服务可能是更实际的选择。
作者:王富贵 | 发布时间:2026-02-15
参考来源:MiniMax 官方博客 · WinBuzzer