PulseAugur
实时 06:45:50
English(EN) QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation

新的QMFOL框架通过可控的逻辑复杂度对LLM推理进行基准测试

研究人员推出了一种新颖的框架QMFOL,旨在生成具有可控复杂度的第一阶逻辑推理任务,用于评估大型语言模型(LLMs)。该框架通过精确控制逻辑深度、宽度和语义多样性,并利用外部证明器确保逻辑一致性,从而克服了现有基准测试的局限性。由此产生的基准测试QMFOLBench包含2880个实例,并已用于评估六种大型推理模型和两种LLM,结果表明随着逻辑复杂度的增加,性能下降且计算成本上升。评估还表明,模型在具有“真”标签的任务上表现优于“假”或“未知”标签的任务,并且对语义变化敏感。 AI

影响 提供了一种更精确的方法来评估LLM的演绎推理能力,可能指导未来模型开发朝着更强大的逻辑能力发展。

排序理由 该集群描述了一篇提出新颖框架和基准测试以评估LLM推理能力的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的QMFOL框架通过可控的逻辑复杂度对LLM推理进行基准测试

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Kailong Wang ·

    QMFOL:通过可量化单子一阶逻辑测试用例生成来评估大型语言模型推理能力

    Large Language Models (LLMs) have made significant progress in reasoning, particularly in deductive reasoning, which is crucial for high-stakes decision-making. As models improve, evaluation benchmarks should evolve to keep pace. However, existing benchmarks lack fine-grained con…