实体 WildIFEval

WildIFEval

PulseAugur coverage of WildIFEval — every cluster mentioning WildIFEval across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_86816 · Jun 12 · 04:00

新的WildIFEval数据集测试LLM处理复杂、真实世界指令的能力

研究人员推出了WildIFEval，这是一个包含7000个真实用户指令的新数据集，旨在测试大型语言模型（LLM）遵循复杂、多约束命令的能力。该数据集涵盖了广泛的主题和约束类型，分为八类以分析其真实世界分布。使用WildIFEval进行的实验表明，虽然更大的模型表现更好，但所有当前的LLM在处理此类复杂指令方面仍有很大的改进空间，其性能因约束的数量和类型而异。