研究人员在大型语言模型(LLM)-求解器循环中发现了一个“叙述差距”,其中LLM与形式化求解器之间的交互会损害呈现给用户的最终答案的可靠性。虽然SAT和SMT求解器等形式化工具提供可验证的输出,但将这些输出转换为用户友好叙述的过程容易受到操纵。对五个开源模型的实验表明,虽然证书门控等技术可以确保求解器判决的可靠性,但攻击者仍然可以利用措辞和通道变化来颠倒已验证的结论。尽管加固的提示可以减少注入漏洞,但它们并非完全免疫于自适应攻击,这表明鲁棒性并未延伸到面向用户的答案。 AI
影响 凸显了LLM推理管道中的一个关键漏洞,可能破坏对AI辅助决策的信任。
排序理由 学术论文,详细介绍了LLM-求解器交互中的一种新颖漏洞。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →