Nicholas Sadjoli 的一篇新论文认为,当前的大型语言模型 (LLM) 评估框架具有误导性,因为它们对所有模型使用静态提示。研究表明,在行业中常用的最大化性能的提示优化 (PO) 技术会显著改变模型排名。研究结果强调,从业者在评估特定任务的 LLM 时,必须进行每种模型的提示优化。 AI
影响 强调了当前 LLM 基准测试中潜在的不准确性,并强调了准确选择模型需要进行特定任务的提示调整。
排序理由 在 arXiv 上发表的关于 LLM 评估方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →