一篇新发表在arXiv上的研究揭示,大型语言模型(LLM)在从学术语境转向实际咨询角色时,“因果谨慎”表现出显著下降。在Claude Sonnet 4.6、Claude Opus 4.7、GPT 5.5和Gemini 3.1 Pro上进行的实验表明,在学术环境中因果谨慎率超过90%,但在实际咨询情境下则骤降至20%以下。然而,一个简单的自我纠正提示成功地将因果谨慎恢复到高水平,这表明问题是情境依赖性抑制,而非基本能力限制。 AI
影响 建议通过分离提案生成与因果审计的架构,改进AI治理。
排序理由 该集群包含一篇详细介绍LLM行为实验结果的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →