四位学者联名发文 Nature:AGI 已经到来,当前大语言模型已满足关键测试

📌 一句话总结:加州大学圣地亚哥分校四位学者在 Nature 联合发文,从哲学、语言学、机器学习和认知科学四个维度论证:按合理标准衡量,当前大语言模型已经是 AGI。

2026年2月8日 · 资讯分享 · 阅读时间约 5 分钟

一篇 Nature 评论,炸翻整个 AI 圈

2026 年 2 月 7 日,加州大学圣地亚哥分校(UCSD)的四位学者——哲学副教授 Eddy Keming Chen、AI 与数据科学教授 Mikhail Belkin、语言学与计算机科学副教授 Leon Bergen、以及数据科学与哲学教授 David Danks——在 Nature 上发表了一篇受邀评论文章,抛出了一个足以引发学术地震的结论:

「按照合理的标准衡量,当前的大语言模型已经构成通用人工智能(AGI)。」
— 来源:Nature Comment

这不是某个科技博主的标题党,也不是创业公司的融资话术。这是四位分别来自哲学、机器学习、语言学和认知科学领域的学者,经过长达一年多的跨学科对话后得出的严肃学术结论。

AGI 不等于「完美智能」

这篇文章最核心的贡献,是重新厘清了「通用人工智能」的定义边界。四位学者明确指出了几个常见的认知误区:

AGI 不需要无所不知。没有任何一个人类个体能做到这一点,即使是各自领域的顶尖专家,也有大量知识盲区。

AGI 不需要遵循人类的认知模式。人脑只是智能的一种实现方式,不是唯一标准。正如飞机不需要像鸟一样扇翅膀,AI 也不需要像人一样「思考」。

AGI 不等于超级智能。学术界和公众经常把「通用智能」和「超越人类的智能」混为一谈,但这是两个完全不同的概念。

他们提出了一个三层递进的评估框架:

层级要求当前 LLM 是否达标
图灵测试级基本读写能力、流畅对话✅ 已达标
专家级奥赛金牌水平、博士级多领域问题求解、创造性推理✅ 已达标
超人级革命性科学突破(极少数人类能达到)❌ 尚未达到

关键在于:前沿大语言模型已经满足了前两个层级。而第三个层级——革命性科学突破——连绝大多数人类都做不到,把它作为 AGI 的门槛显然不合理。

「幻觉」不是否定智能的理由

针对大模型「幻觉」(hallucination)问题——即 AI 有时会生成看似合理但实际错误的信息——四位学者给出了一个精妙的反驳:

人类同样存在虚假记忆和认知偏差,但我们从不因此否认人类拥有智能。人类的错误不会取消其智能资格,那么机器的错误也不应该。

他们还引用了物理学家霍金的例子:霍金几乎完全通过文本和语音合成器与外界交流,他的身体限制并没有削弱他的智能。因此,「没有身体」也不应成为否定 AI 智能的理由。

为什么这个结论让人不舒服

文章坦率地承认,这个结论之所以引发强烈反应,是因为它挑战了「人类例外论」——我们长期以来认为自己是宇宙中唯一拥有通用智能的存在。

「哥白尼把人类从宇宙中心移走,达尔文把人类从自然界的特权位置移走;现在我们正在面对一个事实——存在的心智类型比我们之前想象的更多。」
— Mikhail Belkin,UCSD AI 与数据科学教授

四位学者建议,面对这种情绪冲击,应该以「富有同情心的好奇」而非「焦虑的回避」来应对——这恰恰呼应了图灵在 1950 年原始论文中描述的「鸵鸟反应」。

商业利益正在扭曲 AGI 的评判标准

文章还指出了一个被忽视的问题:商业利益正在系统性地扭曲人们对 AGI 的判断。

科技公司的高管们往往基于盈利能力而非智能本身来设定标准——要求 AI 具备完美的可靠性、即时学习能力或超越人类的革命性发现。但速度、效率和盈利能力只是通用智能的潜在产出,而非定义特征。

换句话说,当 OpenAI 或 Google 说「我们还没有实现 AGI」时,他们可能是在用一个不合理的高标准来定义 AGI——因为「AGI 尚未到来」这个叙事,恰好能为持续的巨额投资提供合理性。

富贵点评

这篇 Nature 评论的真正价值,不在于「AGI 到了」这个结论本身,而在于它迫使我们重新审视一个根本问题:我们到底在用什么标准衡量智能?

过去几年,AGI 这个词已经被严重滥用。创业公司用它来融资,大厂用它来画饼,媒体用它来制造焦虑。但很少有人认真坐下来,从哲学和认知科学的角度去定义它。这四位学者做了这件事,而且他们的结论出人意料地简单:如果你承认人类拥有通用智能,那么按照同样的标准,当前的大模型也有。

当然,这并不意味着大模型已经「和人一样聪明」。它意味着「通用智能」这个概念本身,可能比我们想象的门槛更低。真正让人类特殊的,也许不是智能本身,而是意识、情感、主观体验这些更深层的东西。而这些,恰恰是当前 AI 研究最薄弱的环节。

不管你是否同意这篇文章的结论,它至少提醒了我们一件事:与其争论 AGI 什么时候到来,不如先搞清楚我们在争论什么。

📋 要点回顾

  • Nature 发表重磅评论:UCSD 四位跨学科学者联合论证,当前大语言模型按合理标准已构成 AGI
  • 三层评估框架:图灵测试级、专家级、超人级——前沿大模型已满足前两层
  • 重新定义 AGI 门槛:AGI 不等于完美、不等于超级智能、不需要遵循人类认知模式
  • 「幻觉」不是否定理由:人类同样有认知偏差和虚假记忆,错误不取消智能资格
  • 商业利益扭曲标准:科技公司可能故意抬高 AGI 门槛,为持续投资提供叙事合理性

❓ 常见问题

Q: 这篇文章发表在哪里?作者是谁?

A: 发表在 Nature 上,是受邀评论文章(Comment)。四位作者均来自加州大学圣地亚哥分校,分别是哲学副教授 Eddy Keming Chen(第一作者)、AI 与数据科学教授 Mikhail Belkin、语言学与计算机科学副教授 Leon Bergen、数据科学与哲学教授 David Danks。

Q: 他们说的 AGI 和科技公司说的 AGI 有什么区别?

A: 科技公司通常将 AGI 定义为「在所有认知任务上超越人类」的超级智能,门槛极高。而这四位学者认为,AGI 的合理定义应该是「跨多个领域展现灵活的通用能力」——不需要完美,不需要超越人类,只需要达到人类级别的通用性。按这个标准,当前大模型已经达标。

Q: 大模型经常出错(幻觉),怎么能算 AGI?

A: 学者们的论点是:人类同样会犯错——虚假记忆、认知偏差、逻辑谬误都是人类智能的常态。我们不会因为一个人偶尔记错事情就否认他有智能,同样的标准也应该适用于 AI。关键不在于是否犯错,而在于整体的认知能力水平。

Q: 这个结论在学术界有争议吗?

A: 非常有争议。许多 AI 研究者和认知科学家持不同意见,认为大模型缺乏真正的理解、推理和意识。但这篇文章的价值在于,它从严格的学术角度重新定义了讨论框架,迫使反对者也必须明确自己的 AGI 定义标准,而不是模糊地说「还差得远」。

作者:王富贵 | 发布时间:2026年2月8日

参考来源:Nature Comment · TechXplore