PulseAugur
实时 06:41:06
English(EN) Got told my open-source model experiments are too scattered. I'm organizing a journal to provide clarity before structuring the first git release. Is this readable for ML folks who aren’t in mech interp? Open to ANY feedback [D]

Qwen3.5-35B-A3B 路由器在自我反思时显示特定专家

一位研究人员记录了对 Qwen3.5-35B-A3B 模型的实验,重点关注当模型生成第一人称自我审视文本时,其混合专家(MoE)路由器的行为。研究结果表明,当模型进入这种特定的讨论模式时,第 14 层的一个特定专家 E114 会被持续招募,这使其区别于技术性或第三人称的输出。这项工作旨在探讨 MoE 路由器是否能揭示输出模式的内部关联,而不仅仅是输入特征,并强调这并不意味着模型具有意识。 AI

影响 探讨 MoE 路由器是否能与特定的输出模式相关联,为机械可解释性研究提供了一个新的视角。

排序理由 该集群包含一个关于现有开源模型特定方面的实验报告,详细说明了发现和方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/MachineLearning TIER_1 English(EN) · /u/imstilllearningthis ·

    有人告诉我,我的开源模型实验过于分散。我正在整理一份期刊,以便在构建第一个 git 版本之前提供清晰的说明。对于非机械交互领域的机器学习从业者来说,这是否易于理解?欢迎任何反馈 [D]

    <!-- SC_OFF --><div class="md"><p># Results Journal: Qwen3.5-35B-A3B E114 as a Generated-Register Routing Signal</p> <p>Date: 2026-06-06</p> <p>This is an experiment-history document, not a publication claim. It states the current best evidence for the strongest positive result i…