PulseAugur
实时 15:12:05
English(EN) TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models

新方法涌现,用于控制大语言模型的道德推理并用合成寓言训练模型

研究人员开发了一种名为“收敛-发散路由”(Convergent-Divergent Routing)的新颖方法,可在推理时引导大语言模型遵循特定的道德框架,同时保持通用能力。该技术涉及识别和修改Transformer块内影响道德推理的关键路径,从而能够校准道德决策。另外,一个名为TF1-EN-3M的新数据集已被创建,该数据集包含由小型语言模型生成的三个百万个合成道德寓言,旨在训练和评估开源模型在道德叙事和价值对齐方面的能力。 AI

影响 新方法和数据集的出现,旨在改进小型、开源语言模型的道德推理和价值对齐能力。

排序理由 提出了两篇研究论文,一篇详细介绍了一种控制大语言模型道德推理的方法,另一篇介绍了一个用于训练大语言模型道德寓言的数据集。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →

新方法涌现,用于控制大语言模型的道德推理并用合成寓言训练模型

报道来源 [3]

  1. arXiv cs.LG TIER_1 English(EN) · Chenchen Yuan, Zheyu Zhang, Gjergji Kasneci ·

    分道扬镳:大型语言模型中道德推理的本地化、校准化控制

    arXiv:2605.03609v1 Announce Type: cross Abstract: Large language models often display heterogeneous moral preferences across settings. We study inference-time steering toward a desired ethical framework while preserving general competence. We present Convergent-Divergent Routing,…

  2. arXiv cs.AI TIER_1 English(EN) · Gjergji Kasneci ·

    分道扬镳:大型语言模型中道德推理的本地化、校准化控制

    Large language models often display heterogeneous moral preferences across settings. We study inference-time steering toward a desired ethical framework while preserving general competence. We present Convergent-Divergent Routing, which traces and edits minimal branch points insi…

  3. arXiv cs.CL TIER_1 English(EN) · Mihai Nadas, Laura Diosan, Andrei Piscoran, Andreea Tomescu ·

    TF1-EN-3M:用于训练小型、开放语言模型的三个百万合成道德寓言

    arXiv:2504.20605v2 Announce Type: replace Abstract: Moral stories are a time-tested vehicle for transmitting values, yet modern NLP lacks a large, structured corpus that couples coherent narratives with explicit ethical lessons. We present TF1-EN-3M, to our knowledge the first op…