大模型的两个绊脚石：有过程标注的语料枯竭，吃不下动态的结构化数据

产品犬舍分类 [产品经理]

2025/9/11 14:32:05 浏览量 634 喜欢 11

导读：第一个瓶颈是「语料不足」，第二个瓶颈是吃不下「动态的结构化数据」。

聊一个我有一些观察，但没啥把握的话题：大模型继续提升能力时，面对两个瓶颈。

第一个瓶颈是「语料不足」。在现有的语料基础上，智力的提升空间不大。

这句话本身是被业内反复提及的陈词滥调，但进一步推测，缺乏的不是常规意义上的语料，而是人类对结论的推导过程。

观察大模型的思考过程可以发现，思考是缜密的 step by step 层层推进。而不是人类专家沉淀大量的隐性知识后，经常出乎直觉地，跳跃式地得出答案。反推专家答案也能得出 step by step 的推理过程，但那个答案是电光石火在专家脑子里跳出来的，是多条 step by step 推理路径中的最优解或较优解。

这意味着什么呢？

意味着大模型的智力表现，可能来自于两条途径：

从人类知识库中，学习面对不同问题时 step by step 循序渐进的推理。
在人类知识库找到已有的最优解或较优解，重点是，解题自带推理过程（如学术论文），然后将解题结果用 AI 擅长的强逻辑表达出来。

就我有限的观察，大模型在 ”基本问题” 中的解题表现来自于途径一，在 “高难度问题” 中惊艳的解题表现来自于途径二。

先假定这个观察无误（有错请指出），显然途径二的潜力很小，已有的最优解未必能解答个性化的新问题，只能在知识领域发光发热。比如之前犬校同学贴了一份 Grok 的回答 “为什么中文没有标点”，很惊艳，但仔细一看，只是用大模型擅长的结构化表达来复读已有的人类研究。

至于途径一，学习人类 step by step 循序渐进的推理，需要有足够多的，对怎样解题的过程标注。

为什么 AI Coding 一骑绝尘？因为代码库有足够多的过程标注。大模型在医学领域的表现不俗，也是同款原因。哪些领域解题的过程标注越多，越详细，越准确，哪些领域的大模型赋能越强大。

但这件事从头积累是杯水车薪，还得看各个领域，过去三十年在互联网上的存量知识积累。

我目前的观点是这样的：

代码和数学自带推理过程
推理模型通过学习代码和数学，涌现了强大的推理能力
用强大推理能力去学习存量的人类知识库，也就是语料库，可以在其中找到并理解更多 step by step 的推理痕迹，提高泛化解题能力
这些带有 step by step 推理痕迹的语料已经枯竭了，于是大模型的智力撞墙
重新标注一系列人类的推理过程，手工活无法规模化和泛化，只能在特定领域产生一些效果

简单来说，大模型从代码和数学中学习到推理能力之后，还需要语料中有 “从提出问题到解决问题” 的过程标注，才能理解新问题的解决逻辑。今年被广泛关注的大模型撞墙，撞的就是这道语料墙。严格来说，撞的是 “有过程标注的语料枯竭” 这道墙。

以及，过程标注语料可以提高大模型 step by step 循序渐进的推理能力，但现实中必然存在多条推理路径，哪一条路径最优？大模型只能通过后验来判断。这就是为什么围棋、象棋 AI 战胜了人类——因为 AI 在这个领域可以轻松拿到后验结果，从而在千万条路径中找到最优解。

但解决现实问题并不是这样的，不可能给大模型这么多的后验机会，只能拍脑袋在最大公约数里给出一条推理路径，往往解决不了个性化的新问题。因此最聪明的 AI 也只能做到两三年经验新员工的地步——当然，做到这个地步也是很大很大的价值。

第二个瓶颈是吃不下「动态的结构化数据」。

就我有限的观察，大模型输出依赖于从文章中获取非结构化信息，再熟练地拆解为自己的结构化认知。

一旦数据源是动态的结构化信息，比如我查询点评商家，携程机票，携程酒店，游戏资料库，大模型的表现只能用弱智来形容，幻觉也大量出现。猜测是大模型吃不下动态结构化数据，只能吃二手货——也就是人类恰好以某个角度搜索结构化数据库并整理成了文章。这些旧文章的角度解答不了新问题，于是要不弱智，要不幻觉。

推测这里的原因，可能是大模型没有权限去读取动态结构化数据，也没有能力通过抓取网页反向结构化；也可能是大模型在读取结构化数据库的时候能力不足。

总之，大模型目前并没有展示出 “从动态结构化数据中增强回答质量” 的能力，还得人类手动查询结构化数据库。但这个场景显然是有很大商业潜力的，因为大大提高了商品检索、交易撮合的效率。

奇怪的是，大模型横空出世都快三年了，还是没看到在结构化信息检索中发力的任何迹象。我不理解……暂时只能推测为大模型拿不到结构化数据库的读取权限，有这个权限的平台又担心撮合交易的效率太高，会破坏以广告为主的商业模式，探索极为谨慎。

内容来自“用思考交换思考”的 PM 思辨社区「犬校」。©2017-2025

标签 产品经理

上一篇：iPhone 17 Air,注定是产品经理的标配机

下一篇：为什么产品经理最喜欢的原型工具，还是axure？