研究人员开发了一个新的基准测试 LinuxFLBench,用于评估 AI 代理在诊断 Linux 内核故障方面的有效性。现有的最先进代理在该复杂任务上面临困难,在文件级别的 top-1 准确率仅为 41.6%。为解决此问题,该团队还提出了 LinuxFL$^+ $,一个显著提高了这些代理在 Linux 内核故障定位准确性的框架。 AI
影响 新的基准测试和框架可能加速 AI 在关键系统软件维护中的作用。
排序理由 学术论文,介绍了一个用于 AI 故障定位的新基准测试和框架。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →