研究人员引入了一个“信号覆盖矩阵”,以更好地评估大型语言模型(LLM)在自动形式化任务中的性能。该矩阵将错误分为类型正确性和语义等价性两类,超越了单一标量指标。在ProofNet#和MiniF2F-test上使用DeepSeek V4-Pro进行的实验表明,虽然总体真实成功率显著提高,但大部分增长来自于恢复类型级错误,而语义错误的改进较少,甚至出现新的错误。 AI
影响 为LLM自动形式化提供了一个更细致的评估框架,可能指导未来的模型开发。
排序理由 该集群包含一篇研究论文,详细介绍了评估LLM在特定任务上性能的新方法。
- arXiv
- DeepSeek V4-Pro
- Lean
- Lean-Retry
- MiniF2F-test
- ProofNet#
- Sample-Filter
- Stratified Autoformalization
- Hugging Face
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →