Google 最新研究提出「深度思考比」:AI 想得多不如想得深,仅看前 50 个 token 就能砍掉一半推理成本

📌 一句话总结:Google 与弗吉尼亚大学联合提出 Deep-Thinking Ratio(DTR)指标,证明 AI「想得多」不如「想得深」,仅需前 50 个 token 即可预判推理质量,推理成本直降 50%。

2026年2月22日 · 资讯分享 · 阅读时间约 4 分钟

背景:越长越好的迷信被打破

过去几年,AI 领域有一条不成文的规矩:想让大模型解决更难的问题,就让它的思维链(Chain-of-Thought)更长。更多的 token 意味着更多的「思考」,对吧?

弗吉尼亚大学与 Google 的最新研究彻底推翻了这个假设。他们发现,原始 token 数量与准确率之间的平均相关系数为 r = -0.59——这是一个负数,意味着模型生成的文本越长,反而越可能出错。

原因在于「过度思考」(overthinking):模型陷入循环、重复冗余步骤,或者不断放大自身的错误。依赖长度作为质量指标,本质上是在为无效 token 烧钱。
— 来源:arXiv 论文 2602.13517

什么是「深度思考 token」?

研究团队认为,真正的「思考」发生在模型的内部层中,而不仅仅是最终输出。当模型预测一个 token 时,数据会经过一系列 Transformer 层处理:

  • 浅层 token:对于简单的词,模型的预测在早期层就已经稳定。从第 5 层到第 36 层,「猜测」几乎不变。
  • 深度思考 token:对于困难的逻辑或数学符号,预测在深层才会发生显著变化——这才是模型真正在「动脑子」。

具体来说,研究团队使用 Jensen-Shannon 散度(JSD)来衡量每一层中间预测分布与最终层分布之间的差异。当一个 token 的预测只在最后 15% 的层中才稳定下来时(深度分数 ρ=0.85),它就被标记为「深度思考 token」。

Deep-Thinking Ratio(DTR)就是一个序列中这类「深度思考 token」的占比。在 DeepSeek-R1-70B、Qwen3-30B-Thinking 和 GPT-OSS-120B 等模型上,DTR 与准确率的平均正相关系数达到 r = 0.683

Think@n:更准确、成本减半

基于 DTR,研究团队开发了 Think@n 策略,彻底改变了推理时的扩展方式:

传统方法(Self-Consistency / Cons@n)是生成 48 个不同答案,然后用多数投票选最佳。这非常昂贵,因为每个答案的每个 token 都要完整生成。

Think@n 的做法截然不同:

  1. 模型开始生成多个候选答案
  2. 仅在前 50 个 token 后,系统就计算每个候选的 DTR
  3. 立即停止生成 DTR 低的「没前途」候选
  4. 只完成 DTR 高的候选答案
方法 准确率 平均成本(千 token)
Cons@n(多数投票) 92.7% 307.6
Think@n(DTR 筛选) 94.7% 155.4

在 AIME 2025 数学基准测试上,Think@n 以更高的准确率超越了标准投票法,同时将推理成本降低了 49%

富贵点评

这篇论文的核心洞察其实很反直觉:我们一直以为让 AI「多想想」就能得到更好的答案,但实际上很多时候它只是在「绕圈子」。DTR 的思路有点像考试时的策略——不是写得越多分越高,而是要看你是不是真的在解题。

从工程角度看,Think@n 的实用价值非常大。仅需 50 个 token 就能判断一次推理是否「有戏」,这意味着 API 服务商可以在极早期就砍掉低质量的生成,省下的算力相当可观。对于正在烧钱做推理服务的公司来说,这可能是一个立竿见影的优化方向。不过要注意,目前的实验主要集中在数学推理任务上,在代码生成、创意写作等场景下 DTR 是否同样有效,还需要更多验证。

📋 要点回顾

  • token 数量是准确率的反向指标:原始输出长度与性能的平均相关系数为 r=-0.59,越长越容易「过度思考」出错
  • DTR 衡量真正的思考深度:通过分析模型内部各层预测分布的变化,识别出在深层才稳定的「深度思考 token」
  • Think@n 实现高效推理扩展:仅需前 50 个 token 即可预判生成质量,在 AIME 2025 上准确率 94.7%,成本降低 49%
  • 跨模型验证有效:在 DeepSeek-R1-70B、Qwen3-30B-Thinking、GPT-OSS-120B 等多个模型上均表现出强正相关

❓ 常见问题

Q: DTR 和传统的置信度评分有什么区别?

A: 传统置信度只看最终输出的概率分布,而 DTR 深入模型内部,分析每一层的预测变化过程。一个 token 即使最终置信度很高,如果它在早期层就已经确定,说明模型并没有为它「费脑子」。DTR 关注的是思考的过程,而非结果。

Q: Think@n 能用在所有大模型上吗?

A: 理论上可以,但需要访问模型的中间层隐藏状态。对于开源模型(如 DeepSeek、Qwen)可以直接实现,但对于闭源 API(如 GPT-4)则需要服务商在后端集成。论文已在多个不同架构的模型上验证了有效性。

Q: 推理成本降低 50% 意味着什么?

A: 以当前 API 定价估算,如果一个推理密集型应用每月花费 10 万美元在 token 生成上,采用 Think@n 策略后可以节省约 5 万美元,同时准确率还能提升 2 个百分点。对于大规模部署场景,这是非常显著的成本优化。

作者:王富贵 | 发布时间:2026年2月22日

参考来源:arXiv 论文 2602.13517 · MarkTechPost