研究人员开发了一种方法来区分大型语言模型思维链(CoT)输出中的真实推理步骤和表面推理步骤。这个真实思考得分(TTS)显示,大型语言模型经常生成的推理步骤对最终答案没有因果关系,只有一小部分步骤真正有影响力。研究还发现,这些“啊哈时刻”或自我验证步骤可能是装饰性的,并且可以引导模型在内部遵循已识别的真实推理路径。 AI
影响 挑战了大型语言模型推理的可靠性,并突显了思维链生成中潜在的低效率。
排序理由 学术论文,介绍了一种新指标和关于大型语言模型推理的发现。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →