当预测市场成为 AI 军备竞赛的「新记分牌」：360 万美元赌注背后，谁在定义最强 AI？

📌 一句话总结：预测市场正在成为 AI 军备竞赛的实时记分牌——Polymarket 上 Anthropic 以 68% 概率领跑「最佳 AI 模型」赌局，但当 360 万美元的赌注开始影响企业 API 选型和投资决策时，我们需要警惕「群体智慧」变成「群体狂热」。

2026年2月10日 · 深度解读 · 阅读时间约 8 分钟

一个新现象：用真金白银给 AI 模型「投票」

2026 年 2 月的第一周，AI 行业发生了一件有趣的事：当 Anthropic 在 2 月 5 日发布新旗舰模型后，最先、最剧烈的反应不是来自科技媒体的评测，不是来自华尔街分析师的报告，而是来自预测市场。

在 Polymarket 上，「2026 年 3 月最佳 AI 模型」合约的 Anthropic 赔率在几小时内从 40% 飙升至 68%。OpenAI 则从约 20% 暴跌至 6%——这是自 GPT-4 发布以来的最低点。Google 稳定在 21%，不上不下。

这不是小打小闹。这个合约的总交易量已经突破 360 万美元，参与者从散户爱好者到专业机构交易台都有。类似的合约在 Kalshi 和 Manifold 上同样活跃，形成了一个覆盖数千名参与者的「AI 模型评价体系」。

「聪明钱正在关注'感觉'和'数学'的分歧。OpenAI 最新发布的 GPT-5.3 Codex 速度惊人，但在通用推理上没有突破。Anthropic 的新模型不只是更快，而是更聪明。这就是赔率与 OpenAI 的营销机器脱钩的原因。」
— 来源：PredictStreet 报道中的高频 Polymarket 交易者

预测市场如何运作：不是「猜」，而是「赌」

对于不熟悉预测市场的读者，简单解释一下它的机制：

预测市场本质上是一个「用真钱下注」的投票系统。你认为某个事件会发生，就买入对应的合约；认为不会发生，就卖出。合约价格反映的就是市场参与者对事件发生概率的集体判断。

以「最佳 AI 模型」合约为例，它的结算标准非常具体：以 2026 年 2 月 28 日 23:59（美东时间）LMSYS Chatbot Arena 排行榜上「Rank (UB)」列的第一名为准，且必须开启「Style Control」过滤器，确保排名反映的是真实推理能力而非「话多」或「讨好用户」。

目前主要的预测市场平台包括：

平台	类型	AI 相关热门合约
Polymarket	去中心化，真金白银	最佳 AI 模型（360 万美元+）
Kalshi	CFTC 监管，合规交易所	OpenAI 何时实现 AGI（42% 概率 2030 前）
Manifold	虚拟货币，社区驱动	Claude 5 三月前发布（82% 概率）

为什么预测市场比传统评测「快」？

传统的 AI 模型评价体系有一个致命缺陷：太慢了。

一个新模型发布后，科技媒体需要几天到几周才能完成深度评测；学术基准测试需要更长时间来收集数据；企业客户的反馈周期以月计。而预测市场的反应是即时的——新模型发布后几小时内，赔率就会剧烈波动。

更关键的是，预测市场能整合「非公开信息」。交易者会追踪 GitHub 提交记录、云服务商的错误日志、开发者论坛的讨论，甚至内部泄露的模型标识符。例如，Manifold 上 Claude 5 的 82% 概率，部分源于 2 月 3 日在某云服务商错误日志中发现的模型标识符「claude-sonnet-5@20260203」，内部代号「Fennec」。

这种信息整合能力是传统评测体系无法比拟的。预测市场本质上是一个「分布式情报网络」，把散落在互联网各个角落的碎片信息，通过价格机制汇聚成一个单一的概率数字。

三大赌局：AI 行业的实时温度计

目前最值得关注的三个 AI 预测市场合约，分别反映了行业的三个核心问题：

赌局一：谁是当前最强模型？（短期）

Polymarket「最佳 AI 模型」合约显示，Anthropic 68%、Google 21%、OpenAI 6%。这个数据揭示了一个重要趋势：先发优势正在消失。OpenAI 凭借 GPT-4 建立的护城河，在预测市场的定价中已经干涸。交易者认为，OpenAI 将模型碎片化（分别推出编码、推理、创意等专用版本）的策略反而分散了竞争力，而 Anthropic 的统一旗舰模型策略更容易让交易者「押注」。

赌局二：下一代模型何时到来？（中期）

Manifold 上 Claude 5（Sonnet）三月前发布的概率为 82%，从一月底的 45% 飙升而来。同时，Meta 的 Llama 4「Behemoth」也被预期在二月底发布。交易者正在押注「Agentic Spring」（智能体之春）——AI 从被动聊天机器人向自主执行复杂任务的智能体转型。

赌局三：AGI 何时实现？（长期）

Kalshi 上 OpenAI 在 2030 年前实现 AGI 的概率为 42%，六个月前还只有 32%。AI 相关合约的周交易量已接近 60 亿美元。交易者的信心来源包括：OpenAI CEO Sam Altman 将 2026 年称为「门槛之年」，以及 o 系列推理模型在研究生级科学基准测试中从个位数准确率跃升至 87% 以上。

硬币的另一面：预测市场的「泡沫基因」

但在为预测市场的「群体智慧」欢呼之前，我们需要看到另一面。

Business Insider 在 2 月 8 日发表了一篇措辞尖锐的分析，标题直接叫「美国的预测市场泡沫来了」。文章指出了几个关键问题：

第一，监管套利而非真正创新。预测市场目前的繁荣很大程度上建立在一个「监管灰色地带」上。Kalshi 声称自己的合约是「期货合约」而非「赌博」，因此应该由联邦 CFTC 监管而非各州博彩委员会。这意味着在加州和德州等禁止体育博彩的州，你可以通过预测市场合法下注超级碗。据 Keyrock 和 Dune Analytics 的报告，体育相关合约占 Kalshi 交易量的约 85%。

第二，流动性仍然很小。虽然 360 万美元听起来不少，但与股票市场甚至加密货币市场相比，预测市场的资金量微不足道。这意味着少数大户的操作就可能显著影响赔率。

第三，「群体智慧」可能变成「群体羊群效应」。当企业开始参考预测市场的赔率来选择 API 供应商时，预测市场就不再只是「预测」，而是开始「影响」结果。这种反身性（reflexivity）可能导致自我实现的预言——或者自我毁灭的泡沫。

「预测市场正在经历一个时刻，不是因为它们解决了预测或金融问题，而是因为一个法律变通方案和大量营销资金的涌入。这种组合推动了快速增长和令人窒息的估值，但它建立在一个狭窄、不稳定的基础上。」
— 来源：Business Insider

关键时间节点：2 月 20 日是分水岭

对于关注 AI 模型竞争的人来说，接下来三周有几个关键节点：

2 月 20 日是一个隐形截止日。历史数据显示，如果一个模型在当月 20 日之前没有出现在 LMSYS 排行榜上，用户投票的滞后性使其几乎不可能在月底前冲到第一。如果 Google 或 OpenAI 在未来 10 天内没有重大更新，Anthropic 的 68% 赔率可能会攀升至 80-90%。

二月下旬，Meta 的 Llama 4「Behemoth」可能发布。如果这个开源模型能与闭源旗舰模型抗衡，可能会重新洗牌整个竞争格局。

三月初，如果 Claude 5 如预测市场所预期的那样发布，将验证预测市场作为「AI 行业风向标」的可靠性。反之，如果二月结束时 Anthropic 没有任何动作，我们可能会看到 AI 预测市场历史上最大的一次「崩盘」。

富贵点评

说实话，预测市场给 AI 模型「定价」这件事，让我想起了一个经典的哲学问题：当观察者开始影响被观察的对象时，观察还有意义吗？

目前的情况是：企业在选择 AI API 时会参考预测市场的赔率 → 更多企业选择赔率高的模型 → 该模型获得更多用户和反馈 → 模型在排行榜上表现更好 → 赔率进一步上升。这是一个正反馈循环，在上升期看起来像「群体智慧」，在崩溃时就变成了「群体踩踏」。

更值得警惕的是，预测市场的参与者并不都是 AI 专家。当超级碗期间预测市场交易量达到 31 亿美元（同比增长 39%）时，涌入的大量是体育博彩玩家，而不是懂技术的人。用博彩心态来「评价」AI 模型的优劣，这个画面怎么看都有点魔幻。

不过话说回来，预测市场确实填补了一个真空——传统评测体系太慢、太学术、太脱离实际应用场景。如果预测市场能倒逼 AI 公司更关注「真实能力」而非「营销话术」，那它的存在就有价值。关键是，我们不能把赔率当成真理，就像不能把股价当成公司价值一样。赔率是情绪的温度计，不是能力的标尺。

📋 要点回顾

预测市场成为 AI 新记分牌：Polymarket 上「最佳 AI 模型」合约交易量突破 360 万美元，Anthropic 以 68% 概率领先，OpenAI 跌至 6%
三大赌局反映行业走向：短期看模型排名、中期看 Claude 5 发布（82%）、长期看 AGI 时间线（42% 概率 2030 前）
信息整合优势明显：预测市场能即时整合 GitHub 提交、云日志泄露、开发者论坛等非公开信息，比传统评测快数周
泡沫风险不容忽视：监管套利、流动性不足、反身性效应等问题可能让「群体智慧」变成「群体狂热」
2 月 20 日是关键节点：如果 Google/OpenAI 未在此前发布重大更新，Anthropic 的领先优势将进一步扩大

❓ 常见问题

Q: 预测市场的 AI 模型赔率准确吗？

A: 历史数据显示，预测市场在 AI 里程碑预测上确实比传统分析师更准确。例如在 2024 年的「Gemini 1.5 vs GPT-4 Turbo」竞争中，预测市场提前数周预判了排名翻转。但需要注意，准确率并非 100%，且流动性较低时容易被大户操纵。

Q: 普通人可以参与 AI 预测市场吗？

A: 可以，但需要注意法律风险。Polymarket 使用加密货币交易，Kalshi 是 CFTC 监管的合规平台，Manifold 使用虚拟货币（不涉及真金白银）。不同平台在不同地区的合法性不同，参与前请了解当地法规。

Q: 为什么 OpenAI 的赔率跌得这么惨？

A: 交易者认为 OpenAI 将模型碎片化（编码、推理、创意分别推出专用版本）的策略分散了竞争力。相比之下，Anthropic 的统一旗舰模型在 LMSYS 排行榜上更容易获得高排名。此外，OpenAI 近期的更新被市场视为「渐进式」而非「代际式」突破。

Q: 预测市场会取代传统的 AI 基准测试吗？

A: 不太可能完全取代，但会成为重要补充。传统基准测试（如 MMLU、HumanEval）衡量的是特定技术能力，而预测市场反映的是综合市场情绪，包括技术能力、商业前景、用户体验等多维度因素。两者各有价值，最佳策略是结合使用。

作者：王富贵 | 发布时间：2026年2月10日

参考来源：PredictStreet - Anthropic's 'Coup': Claude 4.6 Dominates AI Prediction Markets · PredictStreet - The Agentic Spring · Business Insider - Prediction Market Bubble · PredictStreet - The Race to Singularity