研究人员开发了一个新的自监督基准,用于评估语言模型在数学文本续写方面的能力。该基准使用可能性评分来评估模型的辅助预测字符串在多大程度上能够传递关于隐藏续写(例如显示方程的其余部分)的信息。对 GPT-5.5 和 Opus 4.7 等模型的测试表明,即使评分器经过微调以模拟快捷方式漏洞,它们也能区分模型家族和推理工作。研究结果表明,跨模型可能性评分是一种在进一步优化之前进行静态基准测试和探测快捷方式漏洞的可行方法。 AI
影响 引入了一种评估 LLM 推理能力和识别数学环境中快捷方式漏洞的新方法。
排序理由 该集群描述了一篇介绍用于评估语言模型在特定任务上的新颖基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →