English(EN) Likelihood scoring for continuations of mathematical text: a self-supervised benchmark with tests for shortcut vulnerabilities

新基准测试 LLM 的数学文本续写能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-11 16:32

研究人员开发了一个新的自监督基准，用于评估语言模型在数学文本续写方面的能力。该基准使用可能性评分来评估模型的辅助预测字符串在多大程度上能够传递关于隐藏续写（例如显示方程的其余部分）的信息。对 GPT-5.5 和 Opus 4.7 等模型的测试表明，即使评分器经过微调以模拟快捷方式漏洞，它们也能区分模型家族和推理工作。研究结果表明，跨模型可能性评分是一种在进一步优化之前进行静态基准测试和探测快捷方式漏洞的可行方法。 AI

影响引入了一种评估 LLM 推理能力和识别数学环境中快捷方式漏洞的新方法。

排序理由该集群描述了一篇介绍用于评估语言模型在特定任务上的新颖基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Daniel Ranard · 2026-05-11 16:32

数学文本续写似然度评分：一个具有捷径漏洞测试的自监督基准

We introduce an automatically generated benchmark for predicting hidden text in technical papers. A paper supplies visible context $X$ and a hidden continuation $Y$; the evaluated model writes an auxiliary forecast string $Z$, and a separate scorer assigns next-token probability …

报道来源 [1]

数学文本续写似然度评分：一个具有捷径漏洞测试的自监督基准

相关实体

相关话题