PulseAugur
实时 08:50:21
实体 Seus

Seus

PulseAugur coverage of Seus — every cluster mentioning Seus across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_109555 ·

    新基准揭示大型语言模型难以应对不断变化的软件API

    研究人员推出 LibEvoBench,这是一个旨在评估代码生成模型在不同软件库版本中处理不断变化的API能力的新基准。该基准以及一个名为软件演进理解得分(SEUS)的新指标表明,当前最先进的模型在时间知识方面存在困难,在处理不断变化的API时表现不佳,并且在指定目标版本时没有改进。然而,提供相关文档可以显著提高模型准确性,这表明需要采用新的训练方法来整合基于时间的基础知识。