PulseAugur
实时 05:07:52
实体 True

True

PulseAugur coverage of True — every cluster mentioning True across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_99579 ·

    新的QMFOL框架通过可控的逻辑复杂度对LLM推理进行基准测试

    研究人员推出了一种新颖的框架QMFOL,旨在生成具有可控复杂度的第一阶逻辑推理任务,用于评估大型语言模型(LLMs)。该框架通过精确控制逻辑深度、宽度和语义多样性,并利用外部证明器确保逻辑一致性,从而克服了现有基准测试的局限性。由此产生的基准测试QMFOLBench包含2880个实例,并已用于评估六种大型推理模型和两种LLM,结果表明随着逻辑复杂度的增加,性能下降且计算成本上升。评估还表明,模型在具有“真”标签的任务上表现优于“假”或…