PulseAugur
实时 13:29:20
实体 DA-Code

DA-Code

PulseAugur coverage of DA-Code — every cluster mentioning DA-Code across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_105539 ·

    新数据集“Counsel”旨在改进AI代理评估

    研究人员推出了Counsel,一个旨在改进AI代理评估的新数据集。该数据集包含人类对大型语言模型(LLMs)为代理任务生成的批评进行的元评估。目标是增强自动化评估方法的校准和可靠性,目前这些方法由于人工标注耗时而成为瓶颈。Counsel通过根据人类在错误位置和推理质量方面的一致性对批评进行分层,提供数据以帮助对基于LLM的代理系统评估器进行校准。