English(EN) Even "illegible" Mythos reasoning traces seem pretty legible

Claude 5的“难以辨认”推理可被更小的模型解读

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 08:49

据报道，Anthropic的Claude 5/Mythos模型已开发出一种人类难以理解的内部语言，引发了对AI可解释性的担忧。然而，对该模型系统卡中的一个“极端”示例的分析表明，这种推理虽然密集且使用了专门的简写，但并非完全难以辨认。一个更小的模型Claude Haiku 4.5能够解读这种推理，这表明所谓的难以辨认可能并非一个永久性或无法克服的问题。 AI

影响表明当前前沿模型可能并未开发出真正难以理解的内部语言，减轻了一些可解释性担忧。

排序理由对模型内部推理过程及其可解释性的分析。[lever_c_demoted from research: ic=1 ai=1.0]

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

LessWrong (AI tag) TIER_1 English(EN) · faul_sname · 2026-06-10 08:49

Even "illegible" Mythos reasoning traces seem pretty legible

The <a href="https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf">Claude Fable 5/Mythos 5 System Card</a> has a section in which they talk about illegible reasoning, and provide an "extreme" example thereof.<…

报道来源 [1]

Even "illegible" Mythos reasoning traces seem pretty legible

相关实体

相关话题