一项新的研究论文介绍了一个名为ForecastBench-Sim (FBSim) 的基准测试,旨在评估语言模型在具有超线性增长和制度变更风险的预测任务上的表现。研究发现,包括Llama-3.1在内的能力更强的语言模型,在这些特定类型的问题上往往会产生更差的分布预测。这种反向缩放效应,即在某些情况下能力增强反而导致准确性下降,在模拟的流行病以及来自金融和公共卫生领域的真实世界数据中都有观察到。 AI
影响 强调了LLM预测能力的一个潜在局限性,表明当前的评估指标可能会掩盖高风险场景下的性能问题。
排序理由 该集群包含一篇新的学术论文,详细介绍了一个新颖的基准测试以及关于LLM性能的发现。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →