一位机器学习从业者正在探索一种新颖的方法,通过绘制不同能力之间的因果依赖关系来理解和控制AI模型的行为。该方法涉及使用对比性监督微调(SFT)来分离310亿参数模型中的特定电路。通过训练强调或弱化某些维度的变体,然后消融已识别的电路,该从业者旨在构建一个模型能力的因果依赖图。该图随后可用于指导未来模型开发的最佳训练顺序,并增强行为控制。 AI
影响 这项研究通过绘制内部因果依赖关系,可能带来更可预测和可控的AI行为。
排序理由 该条目描述了一种理解AI模型内部机制的新颖研究方法,而非正式出版物或产品发布。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →