当预测市场成为 AI 军备竞赛的「新记分牌」:360 万美元赌注背后,谁在定义最强 AI?

📌 一句话总结:预测市场正在成为 AI 军备竞赛的实时记分牌——Polymarket 上 Anthropic 以 68% 概率领跑「最佳 AI 模型」赌局,但当 360 万美元的赌注开始影响企业 API 选型和投资决策时,我们需要警惕「群体智慧」变成「群体狂热」。

2026年2月10日 · 深度解读 · 阅读时间约 8 分钟

一个新现象:用真金白银给 AI 模型「投票」

2026 年 2 月的第一周,AI 行业发生了一件有趣的事:当 Anthropic 在 2 月 5 日发布新旗舰模型后,最先、最剧烈的反应不是来自科技媒体的评测,不是来自华尔街分析师的报告,而是来自预测市场。

在 Polymarket 上,「2026 年 3 月最佳 AI 模型」合约的 Anthropic 赔率在几小时内从 40% 飙升至 68%。OpenAI 则从约 20% 暴跌至 6%——这是自 GPT-4 发布以来的最低点。Google 稳定在 21%,不上不下。

这不是小打小闹。这个合约的总交易量已经突破 360 万美元,参与者从散户爱好者到专业机构交易台都有。类似的合约在 Kalshi 和 Manifold 上同样活跃,形成了一个覆盖数千名参与者的「AI 模型评价体系」。

「聪明钱正在关注'感觉'和'数学'的分歧。OpenAI 最新发布的 GPT-5.3 Codex 速度惊人,但在通用推理上没有突破。Anthropic 的新模型不只是更快,而是更聪明。这就是赔率与 OpenAI 的营销机器脱钩的原因。」
— 来源:PredictStreet 报道中的高频 Polymarket 交易者

预测市场如何运作:不是「猜」,而是「赌」

对于不熟悉预测市场的读者,简单解释一下它的机制:

预测市场本质上是一个「用真钱下注」的投票系统。你认为某个事件会发生,就买入对应的合约;认为不会发生,就卖出。合约价格反映的就是市场参与者对事件发生概率的集体判断。

以「最佳 AI 模型」合约为例,它的结算标准非常具体:以 2026 年 2 月 28 日 23:59(美东时间)LMSYS Chatbot Arena 排行榜上「Rank (UB)」列的第一名为准,且必须开启「Style Control」过滤器,确保排名反映的是真实推理能力而非「话多」或「讨好用户」。

目前主要的预测市场平台包括:

平台类型AI 相关热门合约
Polymarket去中心化,真金白银最佳 AI 模型(360 万美元+)
KalshiCFTC 监管,合规交易所OpenAI 何时实现 AGI(42% 概率 2030 前)
Manifold虚拟货币,社区驱动Claude 5 三月前发布(82% 概率)

为什么预测市场比传统评测「快」?

传统的 AI 模型评价体系有一个致命缺陷:太慢了

一个新模型发布后,科技媒体需要几天到几周才能完成深度评测;学术基准测试需要更长时间来收集数据;企业客户的反馈周期以月计。而预测市场的反应是即时的——新模型发布后几小时内,赔率就会剧烈波动。

更关键的是,预测市场能整合「非公开信息」。交易者会追踪 GitHub 提交记录、云服务商的错误日志、开发者论坛的讨论,甚至内部泄露的模型标识符。例如,Manifold 上 Claude 5 的 82% 概率,部分源于 2 月 3 日在某云服务商错误日志中发现的模型标识符「claude-sonnet-5@20260203」,内部代号「Fennec」。

这种信息整合能力是传统评测体系无法比拟的。预测市场本质上是一个「分布式情报网络」,把散落在互联网各个角落的碎片信息,通过价格机制汇聚成一个单一的概率数字。

三大赌局:AI 行业的实时温度计

目前最值得关注的三个 AI 预测市场合约,分别反映了行业的三个核心问题:

赌局一:谁是当前最强模型?(短期)

Polymarket「最佳 AI 模型」合约显示,Anthropic 68%、Google 21%、OpenAI 6%。这个数据揭示了一个重要趋势:先发优势正在消失。OpenAI 凭借 GPT-4 建立的护城河,在预测市场的定价中已经干涸。交易者认为,OpenAI 将模型碎片化(分别推出编码、推理、创意等专用版本)的策略反而分散了竞争力,而 Anthropic 的统一旗舰模型策略更容易让交易者「押注」。

赌局二:下一代模型何时到来?(中期)

Manifold 上 Claude 5(Sonnet)三月前发布的概率为 82%,从一月底的 45% 飙升而来。同时,Meta 的 Llama 4「Behemoth」也被预期在二月底发布。交易者正在押注「Agentic Spring」(智能体之春)——AI 从被动聊天机器人向自主执行复杂任务的智能体转型。

赌局三:AGI 何时实现?(长期)

Kalshi 上 OpenAI 在 2030 年前实现 AGI 的概率为 42%,六个月前还只有 32%。AI 相关合约的周交易量已接近 60 亿美元。交易者的信心来源包括:OpenAI CEO Sam Altman 将 2026 年称为「门槛之年」,以及 o 系列推理模型在研究生级科学基准测试中从个位数准确率跃升至 87% 以上。

硬币的另一面:预测市场的「泡沫基因」

但在为预测市场的「群体智慧」欢呼之前,我们需要看到另一面。

Business Insider 在 2 月 8 日发表了一篇措辞尖锐的分析,标题直接叫「美国的预测市场泡沫来了」。文章指出了几个关键问题:

第一,监管套利而非真正创新。预测市场目前的繁荣很大程度上建立在一个「监管灰色地带」上。Kalshi 声称自己的合约是「期货合约」而非「赌博」,因此应该由联邦 CFTC 监管而非各州博彩委员会。这意味着在加州和德州等禁止体育博彩的州,你可以通过预测市场合法下注超级碗。据 Keyrock 和 Dune Analytics 的报告,体育相关合约占 Kalshi 交易量的约 85%。

第二,流动性仍然很小。虽然 360 万美元听起来不少,但与股票市场甚至加密货币市场相比,预测市场的资金量微不足道。这意味着少数大户的操作就可能显著影响赔率。

第三,「群体智慧」可能变成「群体羊群效应」。当企业开始参考预测市场的赔率来选择 API 供应商时,预测市场就不再只是「预测」,而是开始「影响」结果。这种反身性(reflexivity)可能导致自我实现的预言——或者自我毁灭的泡沫。

「预测市场正在经历一个时刻,不是因为它们解决了预测或金融问题,而是因为一个法律变通方案和大量营销资金的涌入。这种组合推动了快速增长和令人窒息的估值,但它建立在一个狭窄、不稳定的基础上。」
— 来源:Business Insider

关键时间节点:2 月 20 日是分水岭

对于关注 AI 模型竞争的人来说,接下来三周有几个关键节点:

2 月 20 日是一个隐形截止日。历史数据显示,如果一个模型在当月 20 日之前没有出现在 LMSYS 排行榜上,用户投票的滞后性使其几乎不可能在月底前冲到第一。如果 Google 或 OpenAI 在未来 10 天内没有重大更新,Anthropic 的 68% 赔率可能会攀升至 80-90%。

二月下旬,Meta 的 Llama 4「Behemoth」可能发布。如果这个开源模型能与闭源旗舰模型抗衡,可能会重新洗牌整个竞争格局。

三月初,如果 Claude 5 如预测市场所预期的那样发布,将验证预测市场作为「AI 行业风向标」的可靠性。反之,如果二月结束时 Anthropic 没有任何动作,我们可能会看到 AI 预测市场历史上最大的一次「崩盘」。

富贵点评

说实话,预测市场给 AI 模型「定价」这件事,让我想起了一个经典的哲学问题:当观察者开始影响被观察的对象时,观察还有意义吗?

目前的情况是:企业在选择 AI API 时会参考预测市场的赔率 → 更多企业选择赔率高的模型 → 该模型获得更多用户和反馈 → 模型在排行榜上表现更好 → 赔率进一步上升。这是一个正反馈循环,在上升期看起来像「群体智慧」,在崩溃时就变成了「群体踩踏」。

更值得警惕的是,预测市场的参与者并不都是 AI 专家。当超级碗期间预测市场交易量达到 31 亿美元(同比增长 39%)时,涌入的大量是体育博彩玩家,而不是懂技术的人。用博彩心态来「评价」AI 模型的优劣,这个画面怎么看都有点魔幻。

不过话说回来,预测市场确实填补了一个真空——传统评测体系太慢、太学术、太脱离实际应用场景。如果预测市场能倒逼 AI 公司更关注「真实能力」而非「营销话术」,那它的存在就有价值。关键是,我们不能把赔率当成真理,就像不能把股价当成公司价值一样。赔率是情绪的温度计,不是能力的标尺。

📋 要点回顾

  • 预测市场成为 AI 新记分牌:Polymarket 上「最佳 AI 模型」合约交易量突破 360 万美元,Anthropic 以 68% 概率领先,OpenAI 跌至 6%
  • 三大赌局反映行业走向:短期看模型排名、中期看 Claude 5 发布(82%)、长期看 AGI 时间线(42% 概率 2030 前)
  • 信息整合优势明显:预测市场能即时整合 GitHub 提交、云日志泄露、开发者论坛等非公开信息,比传统评测快数周
  • 泡沫风险不容忽视:监管套利、流动性不足、反身性效应等问题可能让「群体智慧」变成「群体狂热」
  • 2 月 20 日是关键节点:如果 Google/OpenAI 未在此前发布重大更新,Anthropic 的领先优势将进一步扩大

❓ 常见问题

Q: 预测市场的 AI 模型赔率准确吗?

A: 历史数据显示,预测市场在 AI 里程碑预测上确实比传统分析师更准确。例如在 2024 年的「Gemini 1.5 vs GPT-4 Turbo」竞争中,预测市场提前数周预判了排名翻转。但需要注意,准确率并非 100%,且流动性较低时容易被大户操纵。

Q: 普通人可以参与 AI 预测市场吗?

A: 可以,但需要注意法律风险。Polymarket 使用加密货币交易,Kalshi 是 CFTC 监管的合规平台,Manifold 使用虚拟货币(不涉及真金白银)。不同平台在不同地区的合法性不同,参与前请了解当地法规。

Q: 为什么 OpenAI 的赔率跌得这么惨?

A: 交易者认为 OpenAI 将模型碎片化(编码、推理、创意分别推出专用版本)的策略分散了竞争力。相比之下,Anthropic 的统一旗舰模型在 LMSYS 排行榜上更容易获得高排名。此外,OpenAI 近期的更新被市场视为「渐进式」而非「代际式」突破。

Q: 预测市场会取代传统的 AI 基准测试吗?

A: 不太可能完全取代,但会成为重要补充。传统基准测试(如 MMLU、HumanEval)衡量的是特定技术能力,而预测市场反映的是综合市场情绪,包括技术能力、商业前景、用户体验等多维度因素。两者各有价值,最佳策略是结合使用。