研究人员引入了一种名为信号覆盖矩阵的新指标,以更好地评估大型语言模型(LLMs)在自动形式化任务中的性能。该矩阵将错误分为真成功、仅类型、仅语义和两者都失败等类别,提供了比简单的类型正确性百分比更细致的理解。在 ProofNet# 和 MiniF2F-test 上使用 DeepSeek V4-Pro 进行的实验表明,尽管类型正确性有所提高,但语义错误恢复仍然是一个挑战,有时还会引入新的语义错误。 AI
影响 为评估大型语言模型在形式化任务中的性能提供了一种更精细的方法,可能指导未来的模型开发。
排序理由 介绍评估大型语言模型性能新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- arXiv
- DeepSeek V4-Pro
- Lean
- Lean-Retry
- miniF2F-test
- ProofNet#
- Sample-Filter
- Stratified Autoformalization
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →