PulseAugur
实时 09:25:05
English(EN) Evaluating Autoformalization Robustness via Semantically Similar Paraphrasing

大型语言模型自动形式化在释义输入方面存在困难

研究人员调查了大型语言模型(LLMs)在自动形式化任务中的鲁棒性,特别是它们从自然语言陈述生成形式化证明的能力。研究发现,当面对语义相似的释义输入时,LLMs 的性能表现出可变性,这表明自然语言的微小改动会显著影响生成的形式化输出。该研究使用了 MiniF2FLean 4 ProofNet 基准来评估两个现代 LLMs,并测量了生成证明的语义和编译有效性。 AI

影响 突出了 LLMs 对输入措辞的敏感性,表明在形式化推理任务中需要更鲁棒的自然语言理解能力。

排序理由 这是一篇发表在 arXiv 上的研究论文,详细介绍了关于 LLM 鲁棒性的实验结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Hayden Moore, Asfahan Shah ·

    Evaluating Autoformalization Robustness via Semantically Similar Paraphrasing

    arXiv:2511.12784v3 Announce Type: replace Abstract: Large Language Models (LLMs) have recently emerged as powerful tools for autoformalization. Despite their impressive performance, these models can still struggle to produce grounded and verifiable formalizations. Recent work in …