Google 最新研究提出「深度思考比」：AI 想得多不如想得深，仅看前 50 个 token 就能砍掉一半推理成本

📌 一句话总结：Google 与弗吉尼亚大学联合提出 Deep-Thinking Ratio（DTR）指标，证明 AI「想得多」不如「想得深」，仅需前 50 个 token 即可预判推理质量，推理成本直降 50%。

2026年2月22日 · 资讯分享 · 阅读时间约 4 分钟

背景：越长越好的迷信被打破

过去几年，AI 领域有一条不成文的规矩：想让大模型解决更难的问题，就让它的思维链（Chain-of-Thought）更长。更多的 token 意味着更多的「思考」，对吧？

弗吉尼亚大学与 Google 的最新研究彻底推翻了这个假设。他们发现，原始 token 数量与准确率之间的平均相关系数为 r = -0.59——这是一个负数，意味着模型生成的文本越长，反而越可能出错。

原因在于「过度思考」（overthinking）：模型陷入循环、重复冗余步骤，或者不断放大自身的错误。依赖长度作为质量指标，本质上是在为无效 token 烧钱。
— 来源：arXiv 论文 2602.13517

什么是「深度思考 token」？

研究团队认为，真正的「思考」发生在模型的内部层中，而不仅仅是最终输出。当模型预测一个 token 时，数据会经过一系列 Transformer 层处理：

浅层 token：对于简单的词，模型的预测在早期层就已经稳定。从第 5 层到第 36 层，「猜测」几乎不变。
深度思考 token：对于困难的逻辑或数学符号，预测在深层才会发生显著变化——这才是模型真正在「动脑子」。

具体来说，研究团队使用 Jensen-Shannon 散度（JSD）来衡量每一层中间预测分布与最终层分布之间的差异。当一个 token 的预测只在最后 15% 的层中才稳定下来时（深度分数 ρ=0.85），它就被标记为「深度思考 token」。

Deep-Thinking Ratio（DTR）就是一个序列中这类「深度思考 token」的占比。在 DeepSeek-R1-70B、Qwen3-30B-Thinking 和 GPT-OSS-120B 等模型上，DTR 与准确率的平均正相关系数达到 r = 0.683。

Think@n：更准确、成本减半

基于 DTR，研究团队开发了 Think@n 策略，彻底改变了推理时的扩展方式：

传统方法（Self-Consistency / Cons@n）是生成 48 个不同答案，然后用多数投票选最佳。这非常昂贵，因为每个答案的每个 token 都要完整生成。

Think@n 的做法截然不同：

模型开始生成多个候选答案
仅在前 50 个 token 后，系统就计算每个候选的 DTR
立即停止生成 DTR 低的「没前途」候选
只完成 DTR 高的候选答案

方法	准确率	平均成本（千 token）
Cons@n（多数投票）	92.7%	307.6
Think@n（DTR 筛选）	94.7%	155.4

在 AIME 2025 数学基准测试上，Think@n 以更高的准确率超越了标准投票法，同时将推理成本降低了 49%。

富贵点评

这篇论文的核心洞察其实很反直觉：我们一直以为让 AI「多想想」就能得到更好的答案，但实际上很多时候它只是在「绕圈子」。DTR 的思路有点像考试时的策略——不是写得越多分越高，而是要看你是不是真的在解题。

从工程角度看，Think@n 的实用价值非常大。仅需 50 个 token 就能判断一次推理是否「有戏」，这意味着 API 服务商可以在极早期就砍掉低质量的生成，省下的算力相当可观。对于正在烧钱做推理服务的公司来说，这可能是一个立竿见影的优化方向。不过要注意，目前的实验主要集中在数学推理任务上，在代码生成、创意写作等场景下 DTR 是否同样有效，还需要更多验证。

📋 要点回顾

token 数量是准确率的反向指标：原始输出长度与性能的平均相关系数为 r=-0.59，越长越容易「过度思考」出错
DTR 衡量真正的思考深度：通过分析模型内部各层预测分布的变化，识别出在深层才稳定的「深度思考 token」
Think@n 实现高效推理扩展：仅需前 50 个 token 即可预判生成质量，在 AIME 2025 上准确率 94.7%，成本降低 49%
跨模型验证有效：在 DeepSeek-R1-70B、Qwen3-30B-Thinking、GPT-OSS-120B 等多个模型上均表现出强正相关

❓ 常见问题

Q: DTR 和传统的置信度评分有什么区别？

A: 传统置信度只看最终输出的概率分布，而 DTR 深入模型内部，分析每一层的预测变化过程。一个 token 即使最终置信度很高，如果它在早期层就已经确定，说明模型并没有为它「费脑子」。DTR 关注的是思考的过程，而非结果。

Q: Think@n 能用在所有大模型上吗？

A: 理论上可以，但需要访问模型的中间层隐藏状态。对于开源模型（如 DeepSeek、Qwen）可以直接实现，但对于闭源 API（如 GPT-4）则需要服务商在后端集成。论文已在多个不同架构的模型上验证了有效性。

Q: 推理成本降低 50% 意味着什么？

A: 以当前 API 定价估算，如果一个推理密集型应用每月花费 10 万美元在 token 生成上，采用 Think@n 策略后可以节省约 5 万美元，同时准确率还能提升 2 个百分点。对于大规模部署场景，这是非常显著的成本优化。

作者：王富贵 | 发布时间：2026年2月22日

参考来源：arXiv 论文 2602.13517 · MarkTechPost