PulseAugur
实时 11:48:37
English(EN) Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

新框架发现并修复AI逻辑数据集中的错误

研究人员在流行的自然语言到一阶逻辑(NL-to-FOL)数据集中发现了显著的不准确之处,其中FOLIO和MALLS分别显示约39%和36%的公式化错误。这些错误扭曲了模型评估,当使用Gemma 4、Qwen3和GPT-4o-mini等模型的修正后真实值时,准确率提高了高达22个百分点。为解决此问题,提出了一种新的LLM辅助框架,该框架通过审查不到24%的实例即可达到90%的数据集准确率,远优于无指导审查。 AI

影响 提高了神经符号AI和NLI基准的可靠性,从而实现更准确的模型评估和开发。

排序理由 该集群包含一篇学术论文,详细介绍了数据集验证和LLM辅助标注的新方法和发现。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Andrea Brunello, Cristian Curaba, Luca Geatti, Michele Mignani, Angelo Montanari, Nicola Saccomanno ·

    修复FOLIO和MALLS:经过验证的标注和LLM辅助框架以聚焦人工重新标注

    arXiv:2606.02837v1 Announce Type: cross Abstract: Accurate translation from Natural Language to First-Order Logic (NL-to-FOL) underpins neurosymbolic AI systems and Natural Language Inference (NLI), making the quality of NL-to-FOL benchmarks essential -- yet these datasets have n…