PulseAugur
实时 00:50:43
English(EN) Contrastive targeted SFT as a mechinterp method - has anyone mapped causal dependency interactions this way? [D]

ML从业者使用对比性SFT绘制AI模型电路

一位机器学习从业者正在探索一种新颖的方法,通过绘制不同能力之间的因果依赖关系来理解和控制AI模型的行为。该方法涉及使用对比性监督微调(SFT)来分离310亿参数模型中的特定电路。通过训练强调或弱化某些维度的变体,然后消融已识别的电路,该从业者旨在构建一个模型能力的因果依赖图。该图随后可用于指导未来模型开发的最佳训练顺序,并增强行为控制。 AI

影响 这项研究通过绘制内部因果依赖关系,可能带来更可预测和可控的AI行为。

排序理由 该条目描述了一种理解AI模型内部机制的新颖研究方法,而非正式出版物或产品发布。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/MachineLearning 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. r/MachineLearning TIER_1 English(EN) · /u/Substantial_Diver469 ·

    对比式定向SFT作为一种机制解释方法——有人用这种方法映射过因果依赖交互吗?[D]

    <!-- SC_OFF --><div class="md"><p>Hi All, I've been running experiments on targeted SFT for specific capability dimensions on a 31B model. After running small training run to prime the model slightly in the direction I want, then ran a judge across 40 domains scoring six independ…