PulseAugur
实时 06:02:12
English(EN) WildIFEval: Instruction Following in the Wild

新的WildIFEval数据集测试LLM处理复杂、真实世界指令的能力

研究人员推出了WildIFEval,这是一个包含7000个真实用户指令的新数据集,旨在测试大型语言模型(LLM)遵循复杂、多约束命令的能力。该数据集涵盖了广泛的主题和约束类型,分为八类以分析其真实世界分布。使用WildIFEval进行的实验表明,虽然更大的模型表现更好,但所有当前的LLM在处理此类复杂指令方面仍有很大的改进空间,其性能因约束的数量和类型而异。 AI

影响 该数据集将能够更严格地评估LLM处理复杂、真实世界指令的能力,从而有可能提高其实际可用性。

排序理由 该集群描述了一篇介绍用于评估LLM指令遵循能力的数据集的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor ·

    WildIFEval: Instruction Following in the Wild

    arXiv:2503.06573v3 Announce Type: replace-cross Abstract: Recent LLMs have shown remarkable success in following user instructions, yet handling instructions with multiple constraints remains a significant challenge. In this work, we introduce WildIFEval - a large-scale dataset o…