English(EN) Contrastive targeted SFT as a mechinterp method - has anyone mapped causal dependency interactions this way? [D]

ML从业者使用对比性SFT绘制AI模型电路

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 18:31

一位机器学习从业者正在探索一种新颖的方法，通过绘制不同能力之间的因果依赖关系来理解和控制AI模型的行为。该方法涉及使用对比性监督微调（SFT）来分离310亿参数模型中的特定电路。通过训练强调或弱化某些维度的变体，然后消融已识别的电路，该从业者旨在构建一个模型能力的因果依赖图。该图随后可用于指导未来模型开发的最佳训练顺序，并增强行为控制。 AI

影响这项研究通过绘制内部因果依赖关系，可能带来更可预测和可控的AI行为。

排序理由该条目描述了一种理解AI模型内部机制的新颖研究方法，而非正式出版物或产品发布。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/MachineLearning TIER_1 English(EN) · /u/Substantial_Diver469 · 2026-06-17 18:31

对比式定向SFT作为一种机制解释方法——有人用这种方法映射过因果依赖交互吗？[D]

<div class="md"><p>Hi All, I've been running experiments on targeted SFT for specific capability dimensions on a 31B model. After running small training run to prime the model slightly in the direction I want, then ran a judge across 40 domains scoring six independ…

报道来源 [1]

对比式定向SFT作为一种机制解释方法——有人用这种方法映射过因果依赖交互吗？[D]

相关话题