惊人发现：大模型性能，竟与文本结构有关？

大型语言模型理应能够一次处理数百万个tokens（构成其输入的词语和字符片段）。然而，上下文越长和结构越规整，它们的性能表现就越差。

这是Chroma Research一项新研究的主要发现。Chroma是一家为AI应用提供向量数据库的公司，尽管模型在需要从外部来源提取信息时，Chroma反而能从中受益。不过，这项研究的规模和方法使其值得关注：研究人员测试了包括GPT、Claude、Gemini和Qwen在内的18个主流AI模型，涵盖了四种类型的任务，包括语义搜索、重复挑战以及长文档问答。

超越词语匹配

这项研究建立在大家熟悉的“大海捞针”基准之上，即模型必须从一大段不相关的文本中找出隐藏的特定句子。Chroma团队批评这项测试仅衡量字面字符串匹配，因此他们修改了测试，要求模型具备真正的语义理解能力。

具体来说，他们通过两种关键方式超越了简单的关键词识别。首先，他们不再提出与隐藏句子使用相同词语的问题，而是提出仅在语义上相关的问题。例如，在一个受NoLiMa基准启发的设置中，当文本只说明“Yuki住在Kiasma博物馆旁边”时，模型可能会被问到“哪个角色去过赫尔辛基？”要回答这个问题，模型必须基于世界知识进行推断（Kiasma博物馆位于芬兰的赫尔辛基），而不仅仅是关键词匹配。

模型发现这要困难得多；在这些语义问题上，性能急剧下降，并且随着上下文的增长，问题变得更加严重。

其次，研究还考虑了干扰项：内容相似但不正确的陈述。即使只增加一个干扰项，成功率也会显著降低，并且根据干扰项的不同，影响也不同。如果增加四个干扰项，效果会更强。Claude模型通常会拒绝回答，而GPT模型则倾向于给出错误但听起来合理的答案。

结构也很重要（但方式出乎意料）

文本结构也扮演了令人惊讶的角色。与按逻辑顺序组织文本相比，当文本中的句子随机混合时，模型的表现反而更好。原因尚不清楚，但研究发现，上下文结构，而不仅仅是内容，是影响模型性能的一个主要因素。

研究人员还使用LongMemEval（一个包含超过10万个token的聊天记录基准）测试了更实际的场景。在这个单独的测试中，也观察到了类似的性能下降：与只给出相关部分相比，当模型必须处理完整的对话历史记录时，性能会下降。

该研究的建议是：使用有针对性的**“上下文工程”**——在提示中选择和安排最相关的信息——以帮助大型语言模型在实际场景中保持可靠。完整结果可在Chroma Research上查阅，用于复现结果的工具包可在GitHub上下载。

其他实验室也发现类似问题

Chroma的研究结果与其他研究小组的发现一致。2025年5月，Google Deepmind的Nikolay Savinov解释说，当模型接收到大量token时，它必须将注意力分散到整个输入上。因此，裁剪不相关的内容并使上下文保持专注总是有益的，因为将注意力集中在重要内容上有助于模型表现更好。

LMU慕尼黑和Adobe Research的一项研究也发现了同样的问题。在避免字面关键词匹配的NOLIMA基准测试中，即使是专注于推理的模型，随着上下文长度的增加，性能也会出现大幅下降。

微软和Salesforce报告了在更长对话中类似的不稳定性。在用户逐步阐明需求的多轮对话中，准确率从90%一路下降到51%。

最引人注目的例子之一是Meta的Llama 4 Maverick。尽管Maverick理论上可以处理多达1000万个token，但它很难有效利用这种能力。在一个旨在反映实际场景的基准测试中，Maverick在12.8万个token下的准确率仅为28.1%——远低于其技术上限，也远低于当前模型的平均水平。在这些测试中，OpenAI的o3和Gemini 2.5目前表现出最强的结果。

感谢阅读，您的分享和订阅是对我最大的鼓励和支持: