PulseAugur
实时 10:03:04
English(EN) Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most

能力更强的LLM在特定高风险任务上的预测表现更差

一项新的研究论文介绍了一个名为ForecastBench-Sim (FBSim) 的基准测试,旨在评估语言模型在具有超线性增长和制度变更风险的预测任务上的表现。研究发现,包括Llama-3.1在内的能力更强的语言模型,在这些特定类型的问题上往往会产生更差的分布预测。这种反向缩放效应,即在某些情况下能力增强反而导致准确性下降,在模拟的流行病以及来自金融和公共卫生领域的真实世界数据中都有观察到。 AI

影响 强调了LLM预测能力的一个潜在局限性,表明当前的评估指标可能会掩盖高风险场景下的性能问题。

排序理由 该集群包含一篇新的学术论文,详细介绍了一个新颖的基准测试以及关于LLM性能的发现。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Nick Merrill, Jaeho Lee, Ezra Karger ·

    Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most

    arXiv:2605.22672v2 Announce Type: replace Abstract: We document inverse scaling in LLMs on forecasting problems whose underlying time series exhibit superlinear growth and tail risk of regime change, a structure common in finance and epidemiology. On these tasks, more capable mod…

  2. arXiv cs.AI TIER_1 English(EN) · Ezra Karger ·

    Is Capability a Liability? More Capable Language Models Make Worse Forecasts When It Matters Most

    We document inverse scaling in LLMs on forecasting problems whose underlying time series exhibit superlinear growth and tail risk of regime change, a structure common in finance and epidemiology. On these tasks, more capable models produce worse distributional forecasts. The patt…