首次!顶级AI学者联合发布AGI量化评测框架,拆解十大核心能力,实测GPT-5暴露当前技术天花板

当我们对着ChatGPT询问"拿破仑在南非的战役策略"时,它可能会一本正经地为你编造出一场从未发生的历史事件。这就是当下AI系统最令人担忧的"幻觉"问题——明明不知道答案,却要装作无所不知的样子胡说八道。
更让开发者头疼的是,什么才算真正的AGI?每当有新的AI模型发布,关于"这是否已经达到AGI水平"的争论就会甚嚣尘上。有人说GPT-4已经具备了AGI的雏形,也有人认为还差得远。这种模糊不清的定义,让整个AI行业陷入了一种"不知道目标在哪里"的尴尬境地。
最近,一份由多位AI领域知名学者联合发布的论文《A Definition of AGI》终于给出了答案。他们首次提出了基于人类认知心理学的AGI量化评测框架,将复杂的通用智能拆解为十个可测量的认知能力维度。测试结果显示:GPT-4的AGI得分仅为27%,GPT-5虽然跃升至58%,但在长期记忆存储能力上两者都是0分。这个结果不仅揭露了当前AI系统的真实水平,更指出了通往AGI路上最大的拦路虎究竟是什么。
AGI终于有了标准答案
想要定义AGI,首先得搞清楚什么是"智能"。过去,AI研究者们常常各说各话,有的看重数学能力,有的强调创造力,还有的关注情商。但这篇论文的作者们选择了一个更科学的路径:既然要衡量AGI,为什么不直接参考已知唯一具备通用智能的存在——人类?
他们将目光转向了认知心理学领域最权威的理论框架:Cattell-Horn-Carroll(CHC)理论。这套理论经过一个多世纪的实验验证和因子分析,将人类智能拆解得清清楚楚。就像拆解一台精密仪器一样,CHC理论识别出了构成人类认知的各个"零部件"。

人类认知能力的十大核心维度:从基础的知识存储到复杂的推理能力
基于CHC理论,研究团队确定了构成AGI的十大核心认知能力,每项占比10%:
通用知识(K):这不仅仅是死记硬背的百科全书,而是对世界运作方式的常识理解。包括科学原理、社会常识、历史脉络和文化背景。一个真正智能的系统,应该知道"为什么玻璃瓶掉在水泥地上会碎"这样的基本物理常识。
读写能力(RW):从最基础的字母识别到复杂的文本理解和写作。这听起来简单,但实际上考验的是对语言的深层理解能力。
数学能力(M):涵盖从基础算术到高等数学的整个谱系。不只是计算,更重要的是数学推理和问题解决能力。
当场推理(R):这是智能的核心体现——面对从未见过的问题,能够灵活运用逻辑进行推理。包括演绎推理、归纳推理,甚至是理解他人心理状态的"心智理论"。
工作记忆(WM):就像电脑的内存一样,负责临时存储和处理信息。分为文本、听觉、视觉和跨模态四个子类。一个有趣的测试是让AI观看一部电影,然后回答相关问题。
长期记忆存储(MS):这是当前AI系统最大的短板。人类能够不断学习新知识并永久保存,但现有的AI模型每次对话结束后就"失忆"了。
长期记忆检索(MR):不仅要能存储信息,还要能准确无误地调取信息。这正是AI幻觉问题的根源所在。
视觉处理(V):从图像识别到视觉推理,再到图像生成。这需要系统具备"视觉智慧"。
听觉处理(A):包括语音识别、音乐理解和节奏感知。真正的AGI应该能欣赏音乐,甚至创作音乐。
处理速度(S):智能不仅要准确,还要高效。这衡量的是各种认知任务的执行速度。
这套框架的巧妙之处在于,它不是凭空臆想,而是基于对人类智能的深刻理解。每个维度都有具体的测试任务,就像给AI做"智商测试"一样标准化和可重复。
GPT-4到GPT-5的跃升
当研究团队用这套标准去评测当前最先进的AI模型时,结果既令人惊讶又发人深省。GPT-4的总得分只有27%,而GPT-5虽然大幅提升至58%,但这个成绩背后隐藏着一个"锯齿状"的真相。

GPT-4到GPT-5的能力对比:明显的优势领域与致命的短板并存
让我们来看看具体的数据。在通用知识方面,GPT-4得分8%,GPT-5略微提升到9%。这个看似不高的分数其实反映了一个问题:虽然这些模型在某些知识领域表现出色,但在常识理解上仍有不足。
读写能力上,两代模型都表现不错,GPT-5达到了10%的满分。这并不意外,毕竟语言模型的核心就是处理文本。但有趣的是,GPT-4在字母级别的理解上得分为0%——它能写出流畅的文章,却可能在"找出单词中缺失的字母"这样的基础任务上栽跟头。
数学能力的提升最为显著:GPT-4只有6%,GPT-5达到了满分10%。这反映了新一代模型在数学推理能力上的重大突破。但这种突破背后可能存在"能力弯曲"现象——模型可能是通过记忆大量数学题目和解法来"作弊",而非真正掌握了数学思维。
当场推理能力的对比更加戏剧化:GPT-4几乎为0%,GPT-5达到了满分10%。这种跨越式提升让人惊喜,同时也让人怀疑:真的是推理能力提升了,还是训练数据中包含了更多类似的推理题目?
最令人震惊的发现是:无论GPT-4还是GPT-5,在长期记忆存储方面的得分都是0%。这意味着什么?想象一下,如果你每天醒来都失去了前一天的记忆,你还能被称为"智能"吗?
在视觉和听觉处理方面,GPT-5相比GPT-4有了质的飞跃。GPT-4在这两个维度基本为0,而GPT-5分别达到了4%和6%。这反映了多模态AI能力的快速发展,但距离人类水平仍有巨大差距。
处理速度方面两代模型都表现不佳,GPT-5只有3%。这可能听起来不合理——AI不是应该比人类处理信息更快吗?但这里测试的不是简单的计算速度,而是在复杂认知任务中的反应速度和流畅度。
研究者将这种现象称为"锯齿状认知剖面"——AI在某些特定领域可能超越人类,但在其他看似简单的任务上却完全无法胜任。这种不均衡发展正是当前AI系统与真正通用智能的根本差异。
更深层的问题在于"能力弯曲"现象。现有的AI系统常常通过技术手段来绕过自身的认知限制,比如用检索增强生成(RAG)来弥补记忆不足,用超长上下文窗口来模拟工作记忆。这些技术补丁虽然能在表面上改善性能,但并没有解决根本的认知缺陷。
AI幻觉的根源
今年10月,关于AI幻觉的讨论在社交媒体上掀起了热潮。无数用户分享着AI"一本正经胡说八道"的案例:从编造不存在的学术论文,到杜撰历史事件,再到提供错误的法律建议。这个现象让许多企业在部署AI系统时变得谨小慎微。

AI系统在不同认知任务上的表现:某些领域接近人类水平,某些领域严重滞后
这篇AGI论文为我们揭开了AI幻觉的认知机制。问题的根源在于两个关键的记忆能力缺陷:长期记忆存储和长期记忆检索的精确度。
先说长期记忆存储。人类的学习是一个持续的过程——我们每天都在接触新信息,大脑会自动筛选、整理并永久保存有价值的内容。但现有的AI模型采用的是"预训练+微调"的学习模式,一旦训练完成,模型就无法再学习新知识。这就像给一个人做了"记忆消除手术",让其永远停留在某个时间点的认知水平。
更致命的是长期记忆检索的不准确性。当AI遇到不确定的问题时,它不会坦诚地说"我不知道",而是会基于训练数据中的片段信息进行"合理推测"。这种推测过程缺乏人类那种"元认知"能力——也就是对自己知识边界的认知。
举个具体例子:当你问AI关于某个科学概念时,它可能会将不同论文中的信息片段拼接起来,生成一个看似合理但实际错误的解释。这种"拼接式幻觉"在复杂问题上尤为突出。
论文指出,GPT-4和GPT-5在长期记忆检索精确度方面的得分都是0%。这意味着它们虽然能够检索到相关信息,但无法保证信息的准确性。这正是当前AI幻觉问题的核心所在。
AI幻觉对就业市场产生了深远影响。在需要高精度信息处理的岗位,如法律咨询、医疗诊断、金融分析等,企业仍然不敢完全依赖AI系统。这反而为人类专业人士提供了缓冲期——不是被AI替代,而是与AI协作,发挥人类在信息验证和质量控制方面的优势。
但问题的另一面是,AI幻觉也加剧了信息茧房效应。当用户习惯性地相信AI提供的答案时,错误信息可能会大规模传播。这对媒体从业者、教育工作者和内容创作者提出了新的挑战:如何在AI时代保证信息的可信度?
有趣的是,AI幻觉也催生了新的就业机会。"AI事实核查员"、"模型可靠性工程师"、"AI伦理审核员"等新职业正在兴起。这些岗位专门负责检测和修正AI系统的输出错误,确保AI应用的安全性和可靠性。
从技术角度看,解决AI幻觉需要在多个层面发力:改进训练数据的质量,增强模型的不确定性估计能力,开发更好的事实检索机制。但最根本的解决方案,还是要解决长期记忆存储和精确检索这两个核心认知能力。
这也解释了为什么即使GPT-5在很多方面都超越了GPT-4,但在可靠性方面仍然让人担忧。技术的进步和认知能力的完善是两个不同的概念,前者可以通过更大的模型和更多的数据来实现,后者却需要对智能本质的深刻理解。
通往AGI之路还有多远?
基于这套评测框架,研究团队得出了一个令人深思的结论:"在未来一年内,AGI得分达到100%是不太可能的"。这不是技术悲观主义,而是对当前技术瓶颈的理性评估。

通往AGI的道路:仍有多个关键技术瓶颈需要突破
论文中提到的几个关键瓶颈尤为值得关注。首先是持续学习能力。真正的AGI必须能够像人类一样不断学习新知识,而不是依赖定期的模型重训练。这需要在神经网络架构上实现突破性创新。
其次是多模态一致性。虽然GPT-5在视觉和听觉处理上有所进步,但距离真正的多模态智能还有很大差距。人类能够无缝整合来自各个感官的信息,而当前的AI系统在这方面仍显笨拙。
第三个瓶颈是元认知能力——对自身认知过程的认知。一个真正智能的系统应该知道自己知道什么,不知道什么,以及在什么情况下需要寻求帮助。
但挑战中也蕴含着巨大机遇,特别是对中国的AI产业而言。中国在数据资源、应用场景和政策支持方面具有独特优势,这为突破AGI关键技术提供了有利条件。
从数据优势看,中国拥有庞大的用户群体和丰富的应用场景,这为训练更好的多模态模型提供了宝贵的数据资源。特别是在中文语言处理、东方文化理解等领域,中国有机会建立技术优势。
从应用驱动看,中国市场的快速迭代文化有助于AGI技术的实际验证和改进。无论是智能制造、智慧城市还是数字教育,丰富的应用场景为AGI技术提供了真实的测试环境。
从政策环境看,国家对AI发展的高度重视和持续投入,为AGI研究提供了稳定的资源保障。特别是在基础研究和人才培养方面的投入,有助于解决AGI发展中的根本性问题。
对于AI开发者和企业,这份论文提供了明确的发展指引。不要只追求单一维度的性能提升,而要关注认知能力的全面发展。特别是长期记忆存储和精确检索能力,可能是下一轮技术竞争的关键战场。
对于投资者而言,那些专注于解决AGI核心瓶颈的技术公司值得重点关注。比如专攻持续学习算法、多模态融合技术、元认知建模的初创企业,可能孕育着下一个技术突破。
对于政策制定者,这份研究提示我们需要在AI治理方面做好准备。当AI系统在某些认知能力上逼近或超越人类时,如何确保技术发展的安全性和可控性,将成为重要课题。
值得一提的是,中国在AI伦理和安全方面的前瞻性布局,为AGI的健康发展奠定了基础。相比于一些国家的"技术至上"思维,中国更加注重技术发展与社会责任的平衡,这种理念在AGI时代将显得更加珍贵。
最终,通往AGI的道路不是单纯的技术竞赛,而是对智能本质的深度探索。这需要跨学科的合作,需要理论突破和工程实践的结合,更需要对人类智慧的敬畏和对技术边界的清醒认知。
这份《A Definition of AGI》论文为我们提供了一个重要的里程碑:首次将模糊的AGI概念转化为可测量、可比较的标准。GPT-4的27%和GPT-5的58%不仅仅是数字,更是对当前AI技术水平的清醒认知。
真正的AGI仍在远方,但道路已经清晰。当我们能够构建出在十大认知能力上全面匹配人类的AI系统时,那将是人类历史上最重要的技术里程碑之一。在这个过程中,保持理性的期待、持续的创新和负责任的发展,将是我们共同的责任。
AI的未来不是要替代人类智慧,而是要增强和延伸人类的认知边界。在这个意义上,每一个认知能力的突破,都是人类文明向前迈进的一小步。
《A Definition of AGI》文档网址:https://www.agidefinition.ai/paper.pdf