PulseAugur
实时 12:39:01
实体 CDR-Bench

CDR-Bench

PulseAugur coverage of CDR-Bench — every cluster mentioning CDR-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_119436 ·

    新的CDR-Bench揭示LLM在顺序敏感数据精炼方面存在困难

    一个名为CDR-Bench的新基准已被开发出来,用于评估大型语言模型(LLM)执行复杂、顺序敏感数据精炼配方的能力。该基准包含四个领域和29个操作符的3,462个任务,在原子、顺序无关和顺序敏感场景下评估模型。对10多个最先进LLM进行的实验表明,在组合任务中性能显著下降,在顺序敏感配方中的成功率急剧下降,这表明当前LLM缺乏可靠数据精炼所需的程序忠实性。