研究人员开发了DeFAb,一个旨在严格评估基础模型可废止归纳推理能力的新基准。该基准将广泛的知识库转换为形式上可靠的实例,要求模型构建能够解释异常的假设,同时覆盖默认值并保留其他预期。与之前的评估不同,DeFAb强制执行逻辑严谨性,确保假设的推导是正确、保守和最小化的。在DeFAb上测试的前沿模型显示出明显的局限性,在某些层级的准确率下降到低至7.8%,表明其在复杂的理论推理和理论修正方面存在困难。 AI
影响 突显了当前基础模型在执行复杂理论推理方面的关键差距,可能指导未来的研究和开发。
排序理由 该集群描述了一个用于评估AI模型的新基准和数据集,属于研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →