大模型的两个绊脚石:有过程标注的语料枯竭,吃不下动态的结构化数据
聊一个我有一些观察,但没啥把握的话题:大模型继续提升能力时,面对两个瓶颈。
第一个瓶颈是「语料不足」。在现有的语料基础上,智力的提升空间不大。
这句话本身是被业内反复提及的陈词滥调,但进一步推测,缺乏的不是常规意义上的语料,而是人类对结论的推导过程。
观察大模型的思考过程可以发现,思考是缜密的 step by step 层层推进。而不是人类专家沉淀大量的隐性知识后,经常出乎直觉地,跳跃式地得出答案。反推专家答案也能得出 step by step 的推理过程,但那个答案是电光石火在专家脑子里跳出来的,是多条 step by step 推理路径中的最优解或较优解。
这意味着什么呢?
意味着大模型的智力表现,可能来自于两条途径:
- 从人类知识库中,学习面对不同问题时 step by step 循序渐进的推理。 
- 在人类知识库找到已有的最优解或较优解,重点是,解题自带推理过程(如学术论文),然后将解题结果用 AI 擅长的强逻辑表达出来。 
就我有限的观察,大模型在 ”基本问题” 中的解题表现来自于途径一,在 “高难度问题” 中惊艳的解题表现来自于途径二。
先假定这个观察无误(有错请指出),显然途径二的潜力很小,已有的最优解未必能解答个性化的新问题,只能在知识领域发光发热。比如之前犬校同学贴了一份 Grok 的回答 “为什么中文没有标点”,很惊艳,但仔细一看,只是用大模型擅长的结构化表达来复读已有的人类研究。
至于途径一,学习人类 step by step 循序渐进的推理,需要有足够多的,对怎样解题的过程标注。
为什么 AI Coding 一骑绝尘?因为代码库有足够多的过程标注。大模型在医学领域的表现不俗,也是同款原因。哪些领域解题的过程标注越多,越详细,越准确,哪些领域的大模型赋能越强大。
但这件事从头积累是杯水车薪,还得看各个领域,过去三十年在互联网上的存量知识积累。
我目前的观点是这样的:
- 代码和数学自带推理过程 
- 推理模型通过学习代码和数学,涌现了强大的推理能力 
- 用强大推理能力去学习存量的人类知识库,也就是语料库,可以在其中找到并理解更多 step by step 的推理痕迹,提高泛化解题能力 
- 这些带有 step by step 推理痕迹的语料已经枯竭了,于是大模型的智力撞墙 
- 重新标注一系列人类的推理过程,手工活无法规模化和泛化,只能在特定领域产生一些效果 
简单来说, 大模型从代码和数学中学习到推理能力之后,还需要语料中有 “从提出问题到解决问题” 的过程标注,才能理解新问题的解决逻辑。今年被广泛关注的大模型撞墙,撞的就是这道语料墙。严格来说,撞的是 “有过程标注的语料枯竭” 这道墙。
以及,过程标注语料可以提高大模型 step by step 循序渐进的推理能力,但现实中必然存在多条推理路径,哪一条路径最优?大模型只能通过后验来判断。这就是为什么围棋、象棋 AI 战胜了人类——因为 AI 在这个领域可以轻松拿到后验结果,从而在千万条路径中找到最优解。
但解决现实问题并不是这样的,不可能给大模型这么多的后验机会,只能拍脑袋在最大公约数里给出一条推理路径,往往解决不了个性化的新问题。因此最聪明的 AI 也只能做到两三年经验新员工的地步——当然,做到这个地步也是很大很大的价值。
第二个瓶颈是吃不下「动态的结构化数据」。
就我有限的观察,大模型输出依赖于从文章中获取非结构化信息,再熟练地拆解为自己的结构化认知。
一旦数据源是动态的结构化信息,比如我查询点评商家,携程机票,携程酒店,游戏资料库,大模型的表现只能用弱智来形容,幻觉也大量出现。猜测是大模型吃不下动态结构化数据,只能吃二手货——也就是人类恰好以某个角度搜索结构化数据库并整理成了文章。这些旧文章的角度解答不了新问题,于是要不弱智,要不幻觉。
推测这里的原因,可能是大模型没有权限去读取动态结构化数据,也没有能力通过抓取网页反向结构化;也可能是大模型在读取结构化数据库的时候能力不足。
总之,大模型目前并没有展示出 “从动态结构化数据中增强回答质量” 的能力,还得人类手动查询结构化数据库。但这个场景显然是有很大商业潜力的,因为大大提高了商品检索、交易撮合的效率。
奇怪的是,大模型横空出世都快三年了,还是没看到在结构化信息检索中发力的任何迹象。我不理解……暂时只能推测为大模型拿不到结构化数据库的读取权限,有这个权限的平台又担心撮合交易的效率太高,会破坏以广告为主的商业模式,探索极为谨慎。








