一项研究发现,当答案位于长提示(特别是20k token上下文窗口)的中间时,GPT-3.5-Turbo的准确率会显著下降。这一现象在论文“Lost in the Middle: How Language Models Use Long Contexts”中有记载,归因于Transformer模型中的注意力模式,这种模式偏好提示的开头或结尾的信息,而忽略中间部分。这个问题并非检索错误,而是由于训练数据限制导致模型注意力权重在中心区域衰减。 AI
影响 突显了当前大型语言模型在需要从长文档中检索信息的任务中的一个关键限制,需要采用重新排序策略,而不是仅仅增加上下文窗口大小。
排序理由 该集群描述了一篇研究论文的发现,该论文关于特定模型在长上下文中的行为。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →