发表在arXiv上的一项新研究表明,AI模型的提示方式或“脚手架”对其测量性能有显著影响。研究人员发现,仅脚手架的选择就可能使模型的准确率改变高达28个百分点。与预期相反,能力更强的模型不一定对脚手架不敏感,一些先进模型从结构化提示中获得了更大的收益。研究结果表明,当前的性能评分可能过度依赖于所使用的特定提示方法,而未能完全反映模型固有的能力。 AI
影响 强调了提示技术在评估AI能力中的关键作用,表明当前的基准测试可能无法完全捕捉模型的真实潜力。
排序理由 该集群包含一篇学术论文,详细介绍了在不同脚手架条件下对AI模型性能进行的对照比较。
- Anthropic
- Claude Haiku 4.5
- Claude Opus 4.7
- Claude Sonnet 4.6
- Gemini 3.1 Pro Preview
- GPT-5.5
- Planner-Actor-Rater
- planner-then-executor
- ReAct
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →