一个名为CDR-Bench的新基准已被开发出来,用于评估大型语言模型(LLM)执行复杂、顺序敏感数据精炼配方的能力。该基准包含四个领域和29个操作符的3,462个任务,在原子、顺序无关和顺序敏感场景下评估模型。对10多个最先进LLM进行的实验表明,在组合任务中性能显著下降,在顺序敏感配方中的成功率急剧下降,这表明当前LLM缺乏可靠数据精炼所需的程序忠实性。 AI
影响 突出了LLM在程序性任务能力方面的一个关键差距,表明当前模型在复杂数据精炼工作流程中尚不可靠。
排序理由 该集群包含一篇介绍LLM能力评估新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →