惊人发现:大模型性能,竟与文本结构有关?

     分类 [Ai资讯]
2025/7/23 9:57:36 浏览量  18 喜欢  0
导读:大型语言模型理应能够一次处理数百万个tokens(构成其输入的词语和字符片段)。然而,上下文越长和结构越规整,它们的性能表现就越差。

惊人发现:大模型性能,竟与文本结构有关?

大型语言模型理应能够一次处理数百万个tokens(构成其输入的词语和字符片段)。然而,上下文越长和结构越规整,它们的性能表现就越差。

这是Chroma Research一项新研究的主要发现。Chroma是一家为AI应用提供向量数据库的公司,尽管模型在需要从外部来源提取信息时,Chroma反而能从中受益。不过,这项研究的规模和方法使其值得关注:研究人员测试了包括GPT、Claude、Gemini和Qwen在内的18个主流AI模型,涵盖了四种类型的任务,包括语义搜索、重复挑战以及长文档问答。


 

超越词语匹配

 

这项研究建立在大家熟悉的“大海捞针”基准之上,即模型必须从一大段不相关的文本中找出隐藏的特定句子。Chroma团队批评这项测试仅衡量字面字符串匹配,因此他们修改了测试,要求模型具备真正的语义理解能力。

具体来说,他们通过两种关键方式超越了简单的关键词识别。首先,他们不再提出与隐藏句子使用相同词语的问题,而是提出仅在语义上相关的问题。例如,在一个受NoLiMa基准启发的设置中,当文本只说明“Yuki住在Kiasma博物馆旁边”时,模型可能会被问到“哪个角色去过赫尔辛基?”要回答这个问题,模型必须基于世界知识进行推断(Kiasma博物馆位于芬兰的赫尔辛基),而不仅仅是关键词匹配。

模型发现这要困难得多;在这些语义问题上,性能急剧下降,并且随着上下文的增长,问题变得更加严重。

其次,研究还考虑了干扰项:内容相似但不正确的陈述。即使只增加一个干扰项,成功率也会显著降低,并且根据干扰项的不同,影响也不同。如果增加四个干扰项,效果会更强。Claude模型通常会拒绝回答,而GPT模型则倾向于给出错误但听起来合理的答案。


 

结构也很重要(但方式出乎意料)

 

文本结构也扮演了令人惊讶的角色。与按逻辑顺序组织文本相比,当文本中的句子随机混合时,模型的表现反而更好。原因尚不清楚,但研究发现,上下文结构,而不仅仅是内容,是影响模型性能的一个主要因素。

研究人员还使用LongMemEval(一个包含超过10万个token的聊天记录基准)测试了更实际的场景。在这个单独的测试中,也观察到了类似的性能下降:与只给出相关部分相比,当模型必须处理完整的对话历史记录时,性能会下降。

该研究的建议是:使用有针对性的**“上下文工程”**——在提示中选择和安排最相关的信息——以帮助大型语言模型在实际场景中保持可靠。完整结果可在Chroma Research上查阅,用于复现结果的工具包可在GitHub上下载。


 

其他实验室也发现类似问题

 

Chroma的研究结果与其他研究小组的发现一致。2025年5月,Google Deepmind的Nikolay Savinov解释说,当模型接收到大量token时,它必须将注意力分散到整个输入上。因此,裁剪不相关的内容并使上下文保持专注总是有益的,因为将注意力集中在重要内容上有助于模型表现更好。

LMU慕尼黑和Adobe Research的一项研究也发现了同样的问题。在避免字面关键词匹配的NOLIMA基准测试中,即使是专注于推理的模型,随着上下文长度的增加,性能也会出现大幅下降。

微软和Salesforce报告了在更长对话中类似的不稳定性。在用户逐步阐明需求的多轮对话中,准确率从90%一路下降到51%。

最引人注目的例子之一是Meta的Llama 4 Maverick。尽管Maverick理论上可以处理多达1000万个token,但它很难有效利用这种能力。在一个旨在反映实际场景的基准测试中,Maverick在12.8万个token下的准确率仅为28.1%——远低于其技术上限,也远低于当前模型的平均水平。在这些测试中,OpenAI的o3和Gemini 2.5目前表现出最强的结果。

感谢阅读,您的分享和订阅是对我最大的鼓励和支持:

 

标签

微信扫一扫,分享到朋友圈

微信公众号
 苹果iOS虚拟币充值(抖音钻石、快币、薯币、比心币、他趣币、陌陌币充值)

相关推荐