研究人员推出了WildIFEval,这是一个包含7000个真实用户指令的新数据集,旨在测试大型语言模型(LLM)遵循复杂、多约束命令的能力。该数据集涵盖了广泛的主题和约束类型,分为八类以分析其真实世界分布。使用WildIFEval进行的实验表明,虽然更大的模型表现更好,但所有当前的LLM在处理此类复杂指令方面仍有很大的改进空间,其性能因约束的数量和类型而异。 AI
影响 该数据集将能够更严格地评估LLM处理复杂、真实世界指令的能力,从而有可能提高其实际可用性。
排序理由 该集群描述了一篇介绍用于评估LLM指令遵循能力的数据集的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →