苹果最新论文:大模型只是‘模式匹配器’?AI专家激烈反驳
苹果最近的研究论文《思考的幻觉》再次引发了关于大型语言模型是否真的能推理的争论。
苹果团队用经典的逻辑谜题,如汉诺塔,对领先的模型进行了测试,发现即使是先进的系统,仍然难以正确且完整地执行简单的算法。基于这些结果,作者认为大型语言模型缺乏真正的可推广推理能力,而更像是模式匹配器,忽视了更深层次的结构。
其他研究似乎也支持这一观点。另一项研究得出了类似的结论,尽管语气较为温和,指出我们对大型语言模型推理能力的理解还有很多不足之处。而Salesforce的一篇论文在客户关系管理(CRM)背景下对大型语言模型的性能进行了基准测试,发现它们在更复杂、多轮次的场景中表现急剧下降。
批评者认为该论点过于黑白分明
大型语言模型的怀疑者认为这些论文证实了他们的疑虑,即这些系统并不具备真正的推理能力,并担心这会限制高级人工智能的进步。但一些人工智能专家认为这篇论文的结论过于简单。
来自Metr的Lawrence Chan在LessWrong上提出了一个更为细致的观点。他认为将讨论框架设定为真正的思考或机械记忆,忽视了人类和机器推理实际上运作的复杂中间地带。
例如,人们接住一个被投掷的球并不是通过解决物理方程,而是依靠习得的启发式方法。这些捷径并非无知的表现,而是有限资源下解决问题的实用策略。
Chan指出,语言模型在计算资源有限的情况下,同样依赖于经验和抽象。他指出,概括能力可以被视为一种高级的记忆形式——从个别例子出发,经过表面策略,最终形成更广泛的规则。
Chan指出,虽然大型语言模型可能难以以精确要求的格式输出解决15盘汉诺塔问题所需的全部32000多个步骤,但它们可以瞬间生成一个Python脚本来解决该问题。他主张,当大型语言模型解释他们的方法、建议捷径并以代码提供实际解决方案时,这表明它们对任务有功能性——尽管方式不同——的理解。Chan认为,将这种能力视为缺乏理解就偏离了重点。
Chan还警告不要以模型在理论谜题上的表现作为判断其总体能力的基础。他指出,真正的问题是它们的策略能否应用于复杂的现实任务。
虽然苹果的论文指出了当今大型语言模型的特定弱点,但Chan认为它回避了一个更大的问题:哪些类型的“推理”对实际应用重要,以及大型语言模型在处理这些推理时表现如何?
人工智能回应论文其实是个玩笑
广为流传的论文《思考的幻觉的幻觉》,作为对苹果批评的所谓回应,部分由大模型Claude 4 Opus撰写。根据作者Alex Lawsen的说法,这篇论文只是一个充满错误的玩笑。
Lawsen对这篇玩笑论文迅速走红以及许多人认真对待它感到惊讶,称这是他“第一次真正体验到自己创作的东西真正走红,说实话?这有点可怕。”