PulseAugur
实时 22:50:41
实体 DRIFT-Bench

DRIFT-Bench

PulseAugur coverage of DRIFT-Bench — every cluster mentioning DRIFT-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_50808 ·

    新基准揭示“可满足漂移”是AI推理中的关键失败模式

    研究人员推出了DRIFT-Bench,这是一个旨在分析多轮推理系统故障模式的新基准。他们的发现表明,这些系统主要通过“可满足漂移”失败,即系统的内部状态保持一致,但其输出违反了先前的承诺,而不是完全的逻辑矛盾。该研究还强调了MUS-Repair,一种使用最小不可满足子集进行反馈的方法,表现强劲,显著减少了矛盾错误并增加了残差错误的满足性。