研究人员开发了一种名为“收敛-发散路由”(Convergent-Divergent Routing)的新颖方法,可在推理时引导大语言模型遵循特定的道德框架,同时保持通用能力。该技术涉及识别和修改Transformer块内影响道德推理的关键路径,从而能够校准道德决策。另外,一个名为TF1-EN-3M的新数据集已被创建,该数据集包含由小型语言模型生成的三个百万个合成道德寓言,旨在训练和评估开源模型在道德叙事和价值对齐方面的能力。 AI
影响 新方法和数据集的出现,旨在改进小型、开源语言模型的道德推理和价值对齐能力。
排序理由 提出了两篇研究论文,一篇详细介绍了一种控制大语言模型道德推理的方法,另一篇介绍了一个用于训练大语言模型道德寓言的数据集。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →