English(EN) Evaluating Autoformalization Robustness via Semantically Similar Paraphrasing

大型语言模型自动形式化在释义输入方面存在困难

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-04 04:00

研究人员调查了大型语言模型（LLMs）在自动形式化任务中的鲁棒性，特别是它们从自然语言陈述生成形式化证明的能力。研究发现，当面对语义相似的释义输入时，LLMs 的性能表现出可变性，这表明自然语言的微小改动会显著影响生成的形式化输出。该研究使用了 MiniF2F 和 Lean 4 ProofNet 基准来评估两个现代 LLMs，并测量了生成证明的语义和编译有效性。 AI

影响突出了 LLMs 对输入措辞的敏感性，表明在形式化推理任务中需要更鲁棒的自然语言理解能力。

排序理由这是一篇发表在 arXiv 上的研究论文，详细介绍了关于 LLM 鲁棒性的实验结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Hayden Moore, Asfahan Shah · 2026-06-04 04:00

通过语义相似释义评估自动形式化鲁棒性

arXiv:2511.12784v3 Announce Type: replace Abstract: Large Language Models (LLMs) have recently emerged as powerful tools for autoformalization. Despite their impressive performance, these models can still struggle to produce grounded and verifiable formalizations. Recent work in …

报道来源 [1]

通过语义相似释义评估自动形式化鲁棒性

相关实体

相关话题