PulseAugur
实时 02:15:56
Norsk(NO) Are LLMs not getting better?

分析表明,尽管有能力提升的说法,但大型语言模型的编程技能可能已停滞

最近的一项分析表明,在过去一年里,大型语言模型在编程能力方面没有显著提高。尽管模型在性能上可能经历过偶尔的飞跃,但它们生成可实际使用且被开发人员接受的代码的能力已经停滞不前。这一发现与人们普遍认为的LLM持续进步的看法形成对比,并凸显了该领域感知进展与实际进展之间可能存在的差距。 AI

影响 对LLM的持续改进叙事提出质疑,暗示其在实际编码能力方面已进入平台期。

排序理由 该集群包含一篇分析现有数据并得出关于LLM进展结论的观点文章。

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

分析表明,尽管有能力提升的说法,但大型语言模型的编程技能可能已停滞

报道来源 [1]

  1. LessWrong (AI tag) TIER_1 Norsk(NO) · kqr ·

    Are LLMs not getting better?

    <p><span>I was reading the METR article on how </span><a href="https://metr.org/notes/2026-03-10-many-swe-bench-passing-prs-would-not-be-merged-into-main/"><span>LLM code passes test much more often than it is of mergeable quality</span></a><span>. They look at the performance of…