PulseAugur
实时 10:20:11
English(EN) LibEvoBench: Probing Temporal Knowledge Stratification in Code Generation Models

新基准揭示大型语言模型难以应对不断变化的软件API

研究人员推出 LibEvoBench,这是一个旨在评估代码生成模型在不同软件库版本中处理不断变化的API能力的新基准。该基准以及一个名为软件演进理解得分(SEUS)的新指标表明,当前最先进的模型在时间知识方面存在困难,在处理不断变化的API时表现不佳,并且在指定目标版本时没有改进。然而,提供相关文档可以显著提高模型准确性,这表明需要采用新的训练方法来整合基于时间的基础知识。 AI

影响 突出了大型语言模型代码生成中的一个关键限制,可能推动对时间感知模型的新研究。

排序理由 该集群包含一篇介绍用于评估大型语言模型的新基准和新指标的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新基准揭示大型语言模型难以应对不断变化的软件API

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Arie van Deursen ·

    LibEvoBench: Probing Temporal Knowledge Stratification in Code Generation Models

    Large software projects often depend on older versions of libraries, even as APIs continue to evolve across releases. This creates a challenge for LLMs: they must maintain knowledge of multiple API versions, not merely the latest or most common one. However, current LLMs are trai…