English(EN) Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

新框架发现并修复AI逻辑数据集中的错误

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员在流行的自然语言到一阶逻辑（NL-to-FOL）数据集中发现了显著的不准确之处，其中FOLIO和MALLS分别显示约39%和36%的公式化错误。这些错误扭曲了模型评估，当使用Gemma 4、Qwen3和GPT-4o-mini等模型的修正后真实值时，准确率提高了高达22个百分点。为解决此问题，提出了一种新的LLM辅助框架，该框架通过审查不到24%的实例即可达到90%的数据集准确率，远优于无指导审查。 AI

影响提高了神经符号AI和NLI基准的可靠性，从而实现更准确的模型评估和开发。

排序理由该集群包含一篇学术论文，详细介绍了数据集验证和LLM辅助标注的新方法和发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Andrea Brunello, Cristian Curaba, Luca Geatti, Michele Mignani, Angelo Montanari, Nicola Saccomanno · 2026-06-03 04:00

修复FOLIO和MALLS：经过验证的标注和LLM辅助框架以聚焦人工重新标注

arXiv:2606.02837v1 Announce Type: cross Abstract: Accurate translation from Natural Language to First-Order Logic (NL-to-FOL) underpins neurosymbolic AI systems and Natural Language Inference (NLI), making the quality of NL-to-FOL benchmarks essential -- yet these datasets have n…

报道来源 [1]

修复FOLIO和MALLS：经过验证的标注和LLM辅助框架以聚焦人工重新标注

相关实体

相关话题