研究人员在流行的自然语言到一阶逻辑(NL-to-FOL)数据集中发现了显著的不准确之处,其中FOLIO和MALLS分别显示约39%和36%的公式化错误。这些错误扭曲了模型评估,当使用Gemma 4、Qwen3和GPT-4o-mini等模型的修正后真实值时,准确率提高了高达22个百分点。为解决此问题,提出了一种新的LLM辅助框架,该框架通过审查不到24%的实例即可达到90%的数据集准确率,远优于无指导审查。 AI
影响 提高了神经符号AI和NLI基准的可靠性,从而实现更准确的模型评估和开发。
排序理由 该集群包含一篇学术论文,详细介绍了数据集验证和LLM辅助标注的新方法和发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →