PulseAugur
实时 14:51:03
English(EN) CDR-Bench: Evaluating Faithful Execution of Compositional, Order-Sensitive Data Refinement Recipes

新的CDR-Bench揭示LLM在顺序敏感数据精炼方面存在困难

一个名为CDR-Bench的新基准已被开发出来,用于评估大型语言模型(LLM)执行复杂、顺序敏感数据精炼配方的能力。该基准包含四个领域和29个操作符的3,462个任务,在原子、顺序无关和顺序敏感场景下评估模型。对10多个最先进LLM进行的实验表明,在组合任务中性能显著下降,在顺序敏感配方中的成功率急剧下降,这表明当前LLM缺乏可靠数据精炼所需的程序忠实性。 AI

影响 突出了LLM在程序性任务能力方面的一个关键差距,表明当前模型在复杂数据精炼工作流程中尚不可靠。

排序理由 该集群包含一篇介绍LLM能力评估新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的CDR-Bench揭示LLM在顺序敏感数据精炼方面存在困难

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Yuchen Huang, Xiang Li, Zhenqing Ling, Sijia Li, Qianli Shen, Daoyuan Chen, Yi R. Fung, Yaliang Li ·

    CDR-Bench: Evaluating Faithful Execution of Compositional, Order-Sensitive Data Refinement Recipes

    arXiv:2606.31435v1 Announce Type: new Abstract: Data refinement involves executing multi-step recipes over evolving text states, where both composition and execution order of processing operators determine the outcome. While existing benchmarks either isolate text editing or enta…

  2. arXiv cs.CL TIER_1 English(EN) · Yaliang Li ·

    CDR-Bench: Evaluating Faithful Execution of Compositional, Order-Sensitive Data Refinement Recipes

    Data refinement involves executing multi-step recipes over evolving text states, where both composition and execution order of processing operators determine the outcome. While existing benchmarks either isolate text editing or entangle it with code and tool execution, it remains…