English(EN) TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models

新方法涌现，用于控制大语言模型的道德推理并用合成寓言训练模型

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-05 04:00

研究人员开发了一种名为“收敛-发散路由”（Convergent-Divergent Routing）的新颖方法，可在推理时引导大语言模型遵循特定的道德框架，同时保持通用能力。该技术涉及识别和修改Transformer块内影响道德推理的关键路径，从而能够校准道德决策。另外，一个名为TF1-EN-3M的新数据集已被创建，该数据集包含由小型语言模型生成的三个百万个合成道德寓言，旨在训练和评估开源模型在道德叙事和价值对齐方面的能力。 AI

影响新方法和数据集的出现，旨在改进小型、开源语言模型的道德推理和价值对齐能力。

排序理由提出了两篇研究论文，一篇详细介绍了一种控制大语言模型道德推理的方法，另一篇介绍了一个用于训练大语言模型道德寓言的数据集。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.LG TIER_1 English(EN) · Chenchen Yuan, Zheyu Zhang, Gjergji Kasneci · 2026-05-06 04:00

分道扬镳：大型语言模型中道德推理的本地化、校准化控制

arXiv:2605.03609v1 Announce Type: cross Abstract: Large language models often display heterogeneous moral preferences across settings. We study inference-time steering toward a desired ethical framework while preserving general competence. We present Convergent-Divergent Routing,…
arXiv cs.AI TIER_1 English(EN) · Gjergji Kasneci · 2026-05-05 10:30

分道扬镳：大型语言模型中道德推理的本地化、校准化控制

Large language models often display heterogeneous moral preferences across settings. We study inference-time steering toward a desired ethical framework while preserving general competence. We present Convergent-Divergent Routing, which traces and edits minimal branch points insi…
arXiv cs.CL TIER_1 English(EN) · Mihai Nadas, Laura Diosan, Andrei Piscoran, Andreea Tomescu · 2026-05-05 04:00

TF1-EN-3M：用于训练小型、开放语言模型的三个百万合成道德寓言

arXiv:2504.20605v2 Announce Type: replace Abstract: Moral stories are a time-tested vehicle for transmitting values, yet modern NLP lacks a large, structured corpus that couples coherent narratives with explicit ethical lessons. We present TF1-EN-3M, to our knowledge the first op…

报道来源 [3]

分道扬镳：大型语言模型中道德推理的本地化、校准化控制

分道扬镳：大型语言模型中道德推理的本地化、校准化控制

TF1-EN-3M：用于训练小型、开放语言模型的三个百万合成道德寓言

相关实体

相关话题