PulseAugur
实时 14:36:06
English(EN) QSTRBench: a New Benchmark to Evaluate the Ability of Language Models to Reason with Qualitative Spatial and Temporal Calculi

新的QSTRBench基准测试评估LLM的时空推理能力

研究人员推出了QSTRBench,这是一个旨在评估大型语言模型定性时空推理能力的新基准测试。该基准测试包含多种演算,如点代数、Allen区间代数和区域连接演算,其中一些演算(如RCC-22)是首次发布。虽然当前前沿模型表现超出随机水平,但没有模型能够始终正确回答所有问题,不同演算之间的难度差异很大。 AI

影响 引入了一个新的评估框架,以更好地理解和改进LLM在复杂推理任务中的能力。

排序理由 该集群包含一篇介绍用于评估LLM的新型基准测试的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的QSTRBench基准测试评估LLM的时空推理能力

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Robert E. Blackwell ·

    QSTRBench:评估语言模型在定性时空演算推理能力的新基准

    We introduce an extensive qualitative spatial and temporal reasoning (QSTR) benchmark for evaluating large language models (LLMs). We pose questions concerning compositional reasoning (using composition tables, CT), converse relations, and conceptual neighbourhoods (CN) for QSTR …