arXiv上的一项新研究评估了证明自动形式化模型的鲁棒性,这些模型将自然语言数学证明翻译成Lean 4等形式化语言。研究人员对非正式证明引入了全局和局部扰动,以测试模型的_一致性_和_忠实性_。评估发现,七个近期模型对全局释义敏感,并且在很大程度上未能准确反映符号或证明步骤的局部变化。 AI
排序理由 该集群包含一篇学术论文,详细介绍了新的AI模型评估方法和基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →