研究人员发现,用于向语言模型呈现上下文的标签对其行为有显著影响。在对 GPT-5.5 和 DeepSeek V4 Pro 等模型的测试中,使用“Instruction:”或“Reference:”等标签可以大大提高注入信息的采纳率,而“Example:”标签则会抑制它。这表明上下文的呈现方式会改变模型利用所提供信息的方式,基准测试应控制这些呈现选择。 AI
影响 强调了在 RAG 基准测试中标准化上下文呈现的必要性,以确保可靠的模型性能评估。
排序理由 学术论文,详细介绍了关于语言模型行为的新发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →