研究人员开发了一种称为内部相干性最大化(ICM)的方法,用于生成特定个体的示例,以使AI系统与多元人类价值观对齐。该方法通过最大化示例的可预测性来推断标签,使AI模型能够在没有广泛人类监督的情况下朝着目标群体价值观发展。在四个基准上的实验表明,ICM推断的示例表现与人工标记数据相当,而相干性被证明是更好泛化的关键因素。 AI
影响 引入了一种可扩展的AI价值规范新方法,有望改善与多元人类价值观的对齐。
排序理由 该集群包含一篇详细介绍AI对齐新方法的 ist 研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →