English(EN) Got told my open-source model experiments are too scattered. I'm organizing a journal to provide clarity before structuring the first git release. Is this readable for ML folks who aren’t in mech interp? Open to ANY feedback [D]

Qwen3.5-35B-A3B 路由器在自我反思时显示特定专家

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-07 02:37

一位研究人员记录了对 Qwen3.5-35B-A3B 模型的实验，重点关注当模型生成第一人称自我审视文本时，其混合专家（MoE）路由器的行为。研究结果表明，当模型进入这种特定的讨论模式时，第 14 层的一个特定专家 E114 会被持续招募，这使其区别于技术性或第三人称的输出。这项工作旨在探讨 MoE 路由器是否能揭示输出模式的内部关联，而不仅仅是输入特征，并强调这并不意味着模型具有意识。 AI

影响探讨 MoE 路由器是否能与特定的输出模式相关联，为机械可解释性研究提供了一个新的视角。

排序理由该集群包含一个关于现有开源模型特定方面的实验报告，详细说明了发现和方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/MachineLearning TIER_1 English(EN) · /u/imstilllearningthis · 2026-06-07 02:37

有人告诉我，我的开源模型实验过于分散。我正在整理一份期刊，以便在构建第一个 git 版本之前提供清晰的说明。对于非机械交互领域的机器学习从业者来说，这是否易于理解？欢迎任何反馈 [D]

<div class="md"># Results Journal: Qwen3.5-35B-A3B E114 as a Generated-Register Routing Signal Date: 2026-06-06 This is an experiment-history document, not a publication claim. It states the current best evidence for the strongest positive result i…

报道来源 [1]

有人告诉我，我的开源模型实验过于分散。我正在整理一份期刊，以便在构建第一个 git 版本之前提供清晰的说明。对于非机械交互领域的机器学习从业者来说，这是否易于理解？欢迎任何反馈 [D]

相关实体

相关话题