PulseAugur
实时 17:17:43
实体 AgingBench

AgingBench

PulseAugur coverage of AgingBench — every cluster mentioning AgingBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_56697 ·

    研究发现AI会“衰老”并随时间退化,新基准测试揭示

    研究人员开发了一个名为AgingBench的新基准测试,用于衡量AI代理随时间推移的性能下降,类似于人类衰老。与假设AI代理始终可靠的传统评估不同,这项研究强调,持续使用会导致记忆累积以及数据压缩、干扰、修订和维护问题等潜在问题。这些因素可能导致AI代理的准确性和可靠性下降,表明部署AI代理不仅需要初始性能调整,还需要持续的寿命评估和纠正。