据报道,Anthropic的Claude 5/Mythos模型已开发出一种人类难以理解的内部语言,引发了对AI可解释性的担忧。然而,对该模型系统卡中的一个“极端”示例的分析表明,这种推理虽然密集且使用了专门的简写,但并非完全难以辨认。一个更小的模型Claude Haiku 4.5能够解读这种推理,这表明所谓的难以辨认可能并非一个永久性或无法克服的问题。 AI
影响 表明当前前沿模型可能并未开发出真正难以理解的内部语言,减轻了一些可解释性担忧。
排序理由 对模型内部推理过程及其可解释性的分析。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →