PulseAugur
实时 07:36:39
实体 WildIFEval

WildIFEval

PulseAugur coverage of WildIFEval — every cluster mentioning WildIFEval across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_86816 ·

    新的WildIFEval数据集测试LLM处理复杂、真实世界指令的能力

    研究人员推出了WildIFEval,这是一个包含7000个真实用户指令的新数据集,旨在测试大型语言模型(LLM)遵循复杂、多约束命令的能力。该数据集涵盖了广泛的主题和约束类型,分为八类以分析其真实世界分布。使用WildIFEval进行的实验表明,虽然更大的模型表现更好,但所有当前的LLM在处理此类复杂指令方面仍有很大的改进空间,其性能因约束的数量和类型而异。