研究人员调查了大型语言模型(LLMs)在自动形式化任务中的鲁棒性,特别是它们从自然语言陈述生成形式化证明的能力。研究发现,当面对语义相似的释义输入时,LLMs 的性能表现出可变性,这表明自然语言的微小改动会显著影响生成的形式化输出。该研究使用了 MiniF2F 和 Lean 4 ProofNet 基准来评估两个现代 LLMs,并测量了生成证明的语义和编译有效性。 AI
影响 突出了 LLMs 对输入措辞的敏感性,表明在形式化推理任务中需要更鲁棒的自然语言理解能力。
排序理由 这是一篇发表在 arXiv 上的研究论文,详细介绍了关于 LLM 鲁棒性的实验结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →