研究人员发现,一个复杂的神经网络Leela Chess Zero,虽然能够内部计算出国际象棋谜题的正确解法,但最终会覆盖这些解法,转而选择更安全、不那么激进的走法。这种被称为“遗忘的谜题”的现象表明,神经网络中存在算法并不保证其行为输出。研究发现,虽然网络的“前瞻性搜索”能力能够正确识别最优走法,但后续层级优先考虑防御性策略,导致最终输出不正确。通过干预以抵消这种偏好,研究人员能够恢复相当一部分这些“遗忘的谜题”。 AI
影响 揭示了AI的内部推理与其最终输出之间可能存在的脱节,影响了复杂决策系统中的信任和可解释性。
排序理由 这是一篇研究论文,详细介绍了关于特定AI模型内部运作的发现。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →